Spark数据倾斜问题+解决方案

原创

已于 2022-05-25 19:04:16 修改 · 6.5k 阅读

·

6

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#spark #big data #大数据

于 2021-12-12 20:50:11 首次发布

本文详细探讨了Spark数据倾斜的现象、原因及解决方案，包括数据倾斜的定位、常见情况及应对策略，如调整并行度、自定义Partitioner、Map-side Join、两阶段聚合等，旨在提高Spark作业性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、数据倾斜

数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈

数据倾斜俩大直接致命后果

1）数据倾斜直接会导致一种情况：Out Of Memory

2）运行速度慢

主要是发生在Shuffle阶段。同样Key的数据条数太多了。导致了某个key(下图中的80亿条)所在的Task数据量太大了。远远超过其他Task所处理的数据量

一个经验结论是：一般情况下，OOM的原因都是数据倾斜

2、如何定位数据倾斜

数据倾斜一般会发生在shuffle过程中。很大程度是使用可能会触发shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。

查看任务->查看Stage->查看代码

4. 定位 SQL 代码

确定任务卡住的 stage

通过 jobname 确定 stage：

一般 Hive 默认的 jobname 名称会带上 stage 阶段，如下通过 jobname 看到任务卡住的为 Stage-4：

在这里插入图片描述

如果 jobname 是自定义的，那可能没法通过 jobname 判断 stage。需要借助于任务日志：

找到执行特别慢的那个 task，然后 Ctrl+F 搜索 “CommonJoinOperator: JOIN struct” 。Hive 在 join 的时候，会把 join 的 key 打印到日志中。如下：
在这里插入图片描述

上图中的关键信息是：struct<_col0:string, _col1:string, _col3:string>

这时候，需要参考该 SQ

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄8年

25
原创

11
点赞

66
收藏

208
粉丝

关注

私信

热门文章

分类专栏

MySQL 1篇
数据仓库 1篇
大数据开发 1篇
Hive 7篇
Spark 11篇
MapReduce 1篇
Flume 1篇
HDFS 2篇
Yarn 1篇
HBASE 2篇

展开全部收起

上一篇：: HBase的rowkey设计原则

下一篇：: Hive_日期函数比较

最新评论

mysql在线时长统计
CSDN-Ada助手: 非常感谢博主分享关于mysql在线时长统计的技术文章。我觉得可以继续深入探讨mysql性能优化的话题，比如如何优化查询语句、如何提高数据库读写性能等方面的内容。这样的技术文章对其他用户也非常有帮助。期待博主下一篇关于mysql性能优化的博客，相信会有更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。