大数据之MapReduce（MR）

空指针异常Null_Point_Ex

已于 2024-02-08 23:33:46 修改

阅读量980

点赞数 19

CC 4.0 BY-SA版权

分类专栏：大数据文章标签：大数据 hdfs hadoop

于 2024-02-08 23:10:05 首次发布

本文链接：https://blog.csdn.net/wslzoooo/article/details/136083551

本文介绍了MapReduce分布式计算框架，包括其思想、特点、运行时组件、阶段组成等。详细阐述了Map、Reduce流程及shuffle过程，还给出了执行示例，如单词计数。最后说明了在Windows下配置环境变量和编写MR程序的步骤，包括数据类型、maven配置等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce是一个分布式计算框架。思想：将复杂问题分解成若干规模较小的部分，对每个部分进行逐个解决，再将每部分的结果进行合并得到最终结果。
在这里插入图片描述
Map阶段：对一组数据进行某种重复式的处理

Reduce阶段：对Map的中间结果进一步处理

Map和Reduce为两个抽象编程接口，由用户去编程实现：

map：（k1，v1）转换成（k2,v2）

reduce:(k2,[v2])转换成（k3,v3）

MapReduce特点：

易于编程，提供二次开发接口。但现在来说，Spark、Flink等计算框架更加容易与普遍，Spark吃内存，Flink吃CPU
良好的扩展性：可将计算节点增至成百上千，轻松处理TB级或PB级数据
高容错：一台节点宕机，计算任务会转移
适合海量数据离线处理

一个完整的MapReduce分布式运行时有三类：

MRAppMaster：负责整个MR程序的过程调度及状态协调
MapTask：负责map阶段的整个数据处理流程
ReduceTask：负责reduce阶段的整个数据处理流程

阶段组成：

Map后面只能跟Reduce或者直接结束，不能多个Map相邻

执行MapReduce程序示例：

计算圆周率：

cd /export/server/hadoop-3.3.0/sbin #进入Hadoop文件夹
./start-all.sh#启动Hadoop集群
cd /export/server/hadoop-3.3.0/share/hadoop/mapreduce#进入示例文件夹
hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 2 2#启动计算圆周率的MR程序

单词计数WordCount编程思路：

1、map：数据切割并标记个数，输出格式[单词，1]

2、shuffle：把相同key分成一组

3、reduce：对每组的value进行累加得到每个单词的计数

首先，新建一个txt文件并上传到HDFS，并执行示例MR程序

 hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /test /test/output

通过查看HDFS路径下 /test/output/part-r-00000文件来查看结果
在这里插入图片描述
MR内部执行流程：

1、Map流程**

将输入文件按照一定标准进行逻辑切片，默认切片大小和块大小一样（128M），每个切片由MapTask处理
对切片中数据按照规则读取返回key-value对，默认按行读取。key是每一行的起始文职偏移量，value是本行的文本内容。（TextInputFormat）
调用Mapper类中方法处理数据
按照一定规则对键值对进行分区partition
Map输出写入内存，达到比例溢出写到磁盘上。溢出spill时候根据key进行排序
对溢出文件进行合并merge形成最终文件

2、Reduce流程

ReduceTask主动从MapTask复制拉取自己要处理的数据
把拉到的数据进行merge合并并排序
对排序的key-value使用reduce，把键相等的放在一起最后写到HDFS中。

3、shuffle

在MR中，map输出之后到reduce输入之前为shuffle过程，即从无序到有序。shuffle的过程如下图。
在这里插入图片描述

map端shuffle：

collect阶段：map结果输出到环形缓冲区，保存前对key进行Hash分区
spill阶段：内存中数据达到阈值写入磁盘，写入磁盘前进行排序
merge阶段：对溢出的临时文件进行合并，得到一个最终的输出数据

reduce端shuffle：

copy阶段：reduce启动fetcher线程到已完成的节点上复制一份属于自己的数据
merge阶段：在copy的同时，后台开启两个线程对内存到本地的数据文件进行合并操作
sort阶段：merge同时进行排序操作，保证opy的数据整体有效性

4、代码编写MR程序

数据类型

2、配置Windows下环境变量

解压hadoop-3.3.0.tar.gz并配置环境变量，下载winutil 和 hadoop.ddl文件，下载地址：https://github.com/steveloughran/winutils/tree/master/hadoop-3.0.0/bin
将hadoop-3.3.0.tar.gz文件解压后，准备对应版本的hadoop.dll和winutils.exe文件，放到hadoop的斌文件夹，如：E:\learn\BigData\Hadoop\hadoop-3.3.0.tar\hadoop-3.3.0\bin
配置完成，双击winutil 文件无报错，在 cmd 输入"hadoop version"，查看版本信息

报错图片
在这里插入图片描述
编辑hadoop-env.cmd文件

将

set JAVA_HOME=%JAVA_HOME%

修改为：

  set JAVA_HOME=C:\PROGRA~1\Java\jdk1.8.0_144

在这里插入图片描述
3、编写程序

maven

<dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.8.2</version>
        </dependency>
        <dependency>
            <groupId<