MapReduce二次排序

最新推荐文章于 2020-02-15 18:18:48 发布

转载最新推荐文章于 2020-02-15 18:18:48 发布 · 202 阅读

云计算专栏收录该内容

11 篇文章

订阅专栏

本文介绍MapReduce中的二次排序技巧，即在对key排序的基础上进一步对value进行排序的方法。通过将key和value组合成新的key，并定义其排序规则，可以在不影响原有分组逻辑的情况下实现这一需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

**答：**先了解下二次排序吧，在MapReduce操作时，我们知道传递的<key,value>会按照key的大小进行排序，最后输出的结果是按照key排过序的。有的时候我们在key排序的基础上，对value也进行排序。这种需求就是二次排序。数据处理分为四个阶段：（1）Mapper任务会接收输入分片，然后不断的调用map函数，对记录进行处理。处理完毕后，转换为新的<key,value>输出。（2）对map函数输出的<key, value>调用分区函数，对数据进行分区。不同分区的数据会被送到不同的Reducer任务中。（3）对于不同分区的数据，会按照key进行排序，这里的key必须实现WritableComparable接口。该接口实现了Comparable接口，因此可以进行比较排序。（4）对于排序后的<key,value>，会按照key进行分组。如果key相同，那么相同key的<key,value>就被分到一个组中。最终，每个分组会调用一次reduce函数。（5）排序、分组后的数据会被送到Reducer节点。在MapReduce的体系结构中，我们没有看到对value的排序操作。怎么实现对value的排序哪？这就需要我们变通的去实现这个需求。

**变通手段：**我们可以把key和value联合起来作为新的key，记作newkey。这时，newkey含有两个字段，假设分别是k,v。这里的k和v是原来的key和value。原来的value还是不变。这样，value就同时在newkey和value的位置。我们再实现newkey的比较规则，先按照key排序，在key相同的基础上再按照value排序。在分组时，再按照原来的key进行分组，就不会影响原有的分组逻辑了。最后在输出的时候，只把原有的key、value输出，就可以变通的实现了二次排序的需求。