大数据之hadoop中MapReduce框架原理

最新推荐文章于 2023-01-21 21:57:20 发布

原创

最新推荐文章于 2023-01-21 21:57:20 发布 · 1.2k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hadoop #big data #hdfs

MapReduce是大数据处理的重要框架，其工作流程主要包括Map、Shuffle、Reduce三个阶段。Map阶段对输入数据进行切片并由多个MapTask并行处理，Reduce阶段根据key进行聚合计算。Shuffle阶段在MapTask和ReduceTask之间进行数据交换，包括分区、排序和合并。为了提高效率，可以使用Combiner进行局部聚合，自定义Partitioner进行分区控制，以及OutputFormat定制数据输出格式。此外，数据压缩可以减少网络传输和存储成本。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3、MapReduce框架原理

MapReduce主要分为Map阶段和Reduce阶段，其中还有shuffle部分，主要让数据进入环形缓冲区后进行排序处理。

·InputFormat数据输入

数据的输入处理主要由切片和MapTask并行度决定：数据块：Block 是 HDFS 物理上把数据分成一块一块。数据块是 HDFS 存储数据单位。数据切片：数据切片只是在逻辑上对输入进行分片，并不会在磁盘上将其切分成片进行存储。数据切片是 MapReduce 程序计算输入数据的单位，一个切片会对应启动一个 MapTask。

例如：切片大小为100M或切片大小为128M两种情况，而通常一个block块的大小为128M。

注：一个Job的Map阶段并行度由客户端在提交Job时的切片数决定；每一个Split切片分配一个MapTask并行实例处理；默认情况下，切片大小=BlockSize ；切片时不考虑数据集整体，而是逐个针对每一个文件单独切片。

其中，对于job提交流程的源码和切片的源码还没有完全清楚。下面初步介绍

切片源码解析：

（1）程序先找到你数据存储的目录。

（2）开始遍历处理（规划切片）目录下的每一个文件

（3）遍历第一个文件ss.txt

        a）获取文件大小fs.sizeOf(ss.txt)

         b）计算切片大小 computeSplitSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M

         c）默认情况下，切片大小=blocksize

         d）开始切，形成第1个切片：ss.txt—0:128M 第2个切片ss.txt—128:256M 第3个切片ss.txt—256M:300M （每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片）

        e）将切片信息写到一个切片规划文件中

         f）整个切片的核心过程在getSplit()方法中完成

        g）InputSplit只记录了切片的元数据信息，比如起始位置、长度以及所在的节点列表等。

   4）提交切片规划文件到YARN上，YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数。

文件输入（FileinputFormat）切片机制：简单的按照文件的内容长度进行切片；切片大小=block大小；切片不考虑数据集整体，而是逐个针对每一个文件单独切片

例如：

FileInputFormat 常见的接口实现类包括：TextInputFormat、KeyValueTextInputFormat、 NLineInputFormat、CombineTextInputFormat 和自定义 InputFormat 等。

文本数据输入（TextInputFormat）：TextInputFormat 是默认的 FileInputFormat 实现类。按行读取每条记录。键是存储该行在整个文件中的起始字节偏移量， LongWritable 类型。值是这行的内容，不包括任何行终止符（换行符和回车符），Text 类型。

CombinTextInputFormat切片机制：主要应用于小文件过多的场景，可以将多个小文件从逻辑上规划到一个切片中，这样，多个小文件就可以交给一个MapTask处理。

切片机制（虚拟存储和切片）：

a、虚拟存储过程：将输入目录下所有文件大小，依次和设置的 setMaxInputSplitSize 值比较，如果不大于设置的最大值，逻辑上划分一个块。如果输入文件大于设置的最大值且大于两倍，那么以最大值切割一块；当剩余数据大小超过设置的最大值且不大于最大值 2 倍，此时将文件均分成 2 个虚拟存储块（防止出现太小切片）。

例如 setMaxInputSplitSize 值为 4M，输入文件大小为 8.02M，则先逻辑上分成一个 4M。剩余的大小为 4.02M，如果按照 4M 逻辑划分，就会出现 0.02M 的小的虚拟存储文件，所以将剩余的 4.02M 文件切分成（2.01M 和 2.01M）两个文件。

b、切片过程：判断虚拟存储的文件大小是否大于 setMaxInputSplitSize 值，大于等于则单独形成一个切片。

如果不大于则跟下一个虚拟存储文件进行合并，共同形成一个切片。

测试举例：有 4 个小文件大小分别为 1.7M、5.1M、3.4M 以及 6.8M 这四个小文件，则虚拟存储之后形成 6 个文件块，大小分别为： 1.7M，（2.55M、2.55M），3.4M 以及（3.4M、3.4M）最终会形成 3 个切片，大小分别为：（1.7+2.55）M，（2.55+3.4）M，（3.4+3.4）M