一、执行过程


MapReduce过程分为
input
map
shuffle
reduce
output
1.input:首先从HDFS上面读取文件,同时将大文件拆分成小文件(128M),与此同时将并组成键值对的形式
2.map:将input传送过来的每个数据块调用一次map方法,并构建新的键值对
3.shuffle:排序:按照键值对做一个排序
分组:将key值相同的数据放到一个迭代器中
4.reduce:每个分组后的数据调用一次reduce方法,构建新的键值对
5.output:将reduce传递过来的文件合成一个大文件,写到