MapReduce排序,分区,分组总结

本文详细探讨了MapReduce中的关键概念,包括分区(自定义分区器及其注意事项)、排序(默认行为、比较规则、全排序与区内排序、分组排序的实现)以及Combiner的作用和限制。通过深入理解这些机制,有助于优化大数据处理效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 分区

1.1 自定义分区器

 1) 自定义分区器继承 Partitioner类,并重写getPartition方法
 2) 在driver类中设置使用
    job.setPartitionerClass(PhoneNumPartitioner.class);
 3) 设置reduce的个数
    正常情况下,根据分区器业务来决定设置多少个,说白了就是分区器的逻辑会生成多少个分区,
则设置的多少个reduce

1.2 分区使用的注意事项:

 1). reduce个数的设置

 如果不设置,reduce的个数默认为1 , 则最终的分区号是固定的 0 
 如果    1 <   reduce个数  < 分区数, 报错 
 如果 reduce个数  > 分区数,  不报错, 多出的reduce空跑一趟.
 最佳: reduce的个数就设置为实际的分区数.

 2). 分区号只能从0开始,逐一累加

2. 排序

2.1 排序是MR中最重要的操作之一 。

   在MapTask中有两次排序 溢写前排序  归并排序
   在ReduceTask中有1次排序  归并排序

2.2 在MR中,排序是默认的行为. 默认会对KV中的K进行排序.

   默认采用字典序进行排序.

2.3 排序的分类:

   1) 全排序     所有的数据整体排序,要求只能有一个分区,一个reduce.
   2) 区内排序   每个分区内的数据整体排序.
   3) 辅助排序(分组排序) 
   4) 二次排序   比较规则中用到两个条件

2.4 排序的前提:

   排序的前提就是能够进行比较,
   Java中的比较接口和比较器:
	Comparable: 比较接口, compareTo()
	Compartor : 比较器 ,  compare()

2.5 Hadoop排序时 如何比较的

   例如:  
   
   在MapTask中的 MapOutputBuffer 类中的init方法中
   
   comparator = job.getOutputKeyComparator();  // 获取key的比较器对象

  public RawComparator getOutputKeyComparator() {
     
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值