MapReduce如何解决数据倾斜问题

最新推荐文章于 2023-06-26 05:30:00 发布

原创

最新推荐文章于 2023-06-26 05:30:00 发布 · 3.7k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

数据倾斜是指在MapReduce中，由于key分布不均导致部分reduce处理数据量过大，影响任务执行效率。本文介绍了数据倾斜的产生原因，分析了数据倾斜与业务逻辑和数据量的关系，并提出四种处理数据倾斜的方法，包括参数调优、key改造、group操作和map join。同时，建议使用combiner函数和局部+全局聚合策略以减轻数据倾斜的影响。

前言：数据倾斜是日常大数据查询中隐形的一个BUG，遇不到它时你觉得数据倾斜也就是书本博客上的一个无病呻吟的偶然案例，但当你遇到它是你就会懊悔当初怎么不多了解一下这个赫赫有名的事故。

当然你和数据倾斜的缘分深浅还是看你公司的业务逻辑和数据量有没有步入数据倾斜的领地。

说明：关于数据倾斜的产生原因我将结合 map 和 reduce 阶段中的 shuffle 来讲解，若是对 shuffle 有所忘记需要温故的请到MapReduce解决数据倾斜的问题进行相关了解。另本人能力有限，仅根据自己所了解的知识回答，若有误处或不足之处望不吝指出。

一、什么是数据倾斜以及数据倾斜是怎么产生的？

简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。

举个 word count 的入门例子，它的map 阶段就是形成（“aaa”,1）的形式，然后在reduce 阶段进行 value 相加，得出 “aaa” 出现的次数。若进行 word count 的文本有100G，其中 80G 全部是 “aaa” 剩下 20G 是其余单词，那就会形成 80G 的数据量交给一个 reduce 进行相加，其余 20G 根据 key 不同分散到不同 reduce 进行相加的情况。如此就造成了数据倾斜，临床反应就是 reduce 跑到 99%然后一直在原地等着那80G 的reduce 跑完。

简化了的 shuffle 图就是这样。

这样就能清楚看

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。