
大数据
文章平均质量分 70
Wlq0415
I wake up in morning and summarize
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
MapReduce分布式计算概述
它将大规模数据处理任务分解为多个可并行执行的子任务,通过 "分而治之" 的思想在集群上高效处理 PB 级数据。:Map 输出被分区、排序并传输到 Reduce 节点。将 Map 阶段输出的中间键值对按 key 进行分组。由多个 reduce 任务并行处理这些分组数据。:Reduce 节点处理中间数据并写入最终输出。由多个 map 任务并行处理这些数据块。:主节点分配 Map 任务给工作节点。:所有任务完成后,主节点唤醒用户程序。:尽量在存储数据的节点上执行计算。:动态平衡各节点的工作量。原创 2025-07-08 15:24:24 · 176 阅读 · 0 评论 -
HDFS分布式文件系统概述
数据块传输完成后,各 DataNode 依次向客户端返回确认,客户端向 NameNode 报告写入完成,NameNode 更新元数据(记录文件与数据块的映射)。:客户端直接与第一个 DataNode(如 A)建立管道(Pipeline),按顺序将数据块传输给 A,A 接收后转发给 B,B 再转发给 C,形成链式复制。,通过软件机制(如数据冗余)弥补硬件不可靠性。:客户端直接与存储数据块的 DataNode 建立连接,并行读取多个数据块(若文件由多个块组成),并在客户端本地合并为完整文件。原创 2025-07-08 15:07:59 · 608 阅读 · 0 评论 -
大数据概述
大数据的本质不仅是 “大”,更是通过技术突破实现对复杂、高速数据的深度利用,从而解决传统方法无法处理的问题(如精准预测、个性化服务、复杂系统优化等)。它已成为数字时代的核心资源,与人工智能、云计算等技术融合,推动各行各业的变革与创新。原创 2025-07-08 14:46:36 · 887 阅读 · 0 评论