MapReduce：分区与分组

最新推荐文章于 2023-12-30 17:26:36 发布

瞧德

最新推荐文章于 2023-12-30 17:26:36 发布

阅读量3.3k

点赞数 4

CC 4.0 BY-SA版权

分类专栏： Hadoop 文章标签： mapreduce 分组

本文链接：https://blog.csdn.net/qq_39192827/article/details/90671133

本文详细介绍了MapReduce中的分区和分组概念。默认情况下，Mapper输出使用HashPartitioner分区，Reducer通过WritableComparator对key进行分组。分区数量由Reducer数决定，分组则在Reducer端按key值进行。自定义分组器可通过Job.setGroupingComparatorClass()指定。通过案例分析了如何利用分组和分区解决实际问题，如统计单词在不同文件中的频率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

分区、分组

分区：在Mapper的输出时进行，默认会采用HashPartitioner，会根据key值和reduce数进行分组；在写入MapOutputBuffer的缓冲区之前每个kv对就已经获取了对应的分区索引，在溢写时默认会根据分区索引从小到大，key值从小到大进行排序；并且rudecer数决定了分区数量，因为一个reducer只能处理一个分区。自定义分组器通过Job.setPartitionerClass()指定。

分组：在Reducer端进行，默认使用的是WritableComparator比较器进行对key值的比较，key值相同的会被分在一组。而reduce()函数是按照组为操作对象进行统计的，也就是有多少个组，则调用几次reduce()函数。这就与Mapper.run()不同，Mapper的操作对象是kv对，有多少个kv对则调用几次map()方法。自定义分组器通过Job.setGroupingComparatorClass()指定。

不妨对比一下map()和reduce()方法

  //操作对象是kv对
  protected void map(KEYIN key, VALUEIN value, 
                     Context context) throws IOException, InterruptedException {
    context.write((KEYOUT) key, (VALUEOUT) value);
  }

  //操作对象是组，Iterable<VALUEIN> values可以看成是该组的迭代器
  protected void reduce(KEYIN key, Iterable<VALUEIN> values, Context context
                        ) throws IOException, InterruptedException {
    for(VALUEIN value: values) {
      context.write((KEYOUT) key,