MapReduce运行模式和作业处理

最新推荐文章于 2025-08-24 22:05:35 发布

原创最新推荐文章于 2025-08-24 22:05:35 发布 · 601 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#mapreduce #hadoop #hdfs

Hadoop 专栏收录该内容

12 篇文章

订阅专栏

本文介绍了MapReduce的两种运行模式：本地模式和集群模式，并详细解析了MapReduce作业的执行过程，包括输入输出处理、Mapper任务执行流程及Reducer任务执行细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce运行模式和作业执行

运行模式

本地运行模式

MR程序以本地单线程的方式运行
处理的数据和输出结果可以在本地系统也可以在HDFS上
便于调试

集群运行模式

MR程序交给yarn，分发到多个节点上运行
处理的数据和输出存储到HDFS上

MR作业的执行

输入和输出

MR将作业的输入看成一对键值对，同样产生一组键作为作业的输出。

Mapper任务执行

将输入目录下文件按照一定标准切片，每一个切片交给一个MapTask处理
将每一行文本解析成键值对。key是起始位置，value是文本内容
调用map方法。每解析成一个键值对，就会调用一次map方法。调用map方法会输出零个或多个键值对
按照一定规则对输出的键值对进行分区。分区数量是Reducer任务运行的数量，默认只有一个Reducer任务，也就是默认只有一个区
对每个区的键值对进行排序。先按照键排序，键值相同，再按照值排序。
对数据进行局部聚合，就是combiner。键相等的键值对会调用一次reducer。经过这一阶段，数据量会减少，默认没有这一阶段。

Reducer任务执行

reducer制动从Mapper复制输出的键值对。
将复制到Reducer的数据进行合并，即将分散的数据汇总成一个大数据。再对汇总的数据进行排序
对排序后端数据进行reduce方法。键相等的键值对调用一次reduce方法，每次调用都会产生零个或多个键值对，最后将输出的键值对写入到HDFS中。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

健鑫. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。