MapReduce运行全流程

最新推荐文章于 2023-03-23 09:10:32 发布

BDLng

最新推荐文章于 2023-03-23 09:10:32 发布

阅读量1k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：大数据之hadoop 文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/m0_37746890/article/details/78841011

大数据之hadoop 专栏收录该内容

8 篇文章

订阅专栏

本文详细介绍了MapReduce的运行流程，包括Nodemanager如何获取任务并启动Container运行MapTask，MapTask如何读取数据并调用用户编写的Map方法，以及溢出、归并排序、ReduceTask的工作原理等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce运行全流程：

Nodemanager从Resourcemanager那里拿到Task之后，就启动一个规定cpu、内存的container用来运行MapTask。

那么MapTask就开始工作了，MapTask通过Inputformat组件，从任务所指定路径(如:HDFS)上开始读取数据。需注意的是，他一次只读一行，读完一行调一次用户写的Map方法，数据格式为<K,V>，其中K为起始偏移量(按字节来算)，V为那一行的内容。<K,V>经过用户的Map逻辑处理后，通过上下文context.write()将处理后得到的<K,V>写出去。

此时有一个组件OutPutCollector将写出的数据，写到一个环形缓冲区中，这个环形缓冲区可以实现异步工作，提高了程序的工作效率。

这个环形缓冲区，默认当数据占到80%的时候，就发生split溢出，溢出的时候通过HashPartitioner和Key.CompareTo进行分区、排序。于此同时，程序继续往剩下的20%写<K,V>。如下图：

溢出到文件的时候，会调用用户定义的combiner组件，对相同K的V进行combiner，然后再写到文件中去。这里会源源不断的溢出文件，从上一个溢出位置开始，每满80%就开始溢出。那么就会有很多文件，此时就会调用归并排序，将他们归并起来形成一个大文件。如果此时发现用户定义了combiner，就会调用combiner形成最终的结果文件。如下图：