Spark 数据倾斜及其解决方案

最新推荐文章于 2024-12-17 20:23:54 发布

小夕Coding

最新推荐文章于 2024-12-17 20:23:54 发布

阅读量200

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据系列文章标签： spark 大数据 big data

本文链接：https://blog.csdn.net/weixin_54707168/article/details/122757307

大数据系列专栏收录该内容

630 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

数据倾斜是Spark等分布式系统中的常见问题，它会导致任务分配不均，部分Task处理数据量过大，影响系统性能。数据倾斜表现为部分Task执行时间过长，甚至引发内存溢出。其原因主要是shuffle操作中，某些key对应的数据量过大。解决数据倾斜的方法包括：1)业务逻辑优化，避免特定key的聚合；2)调整Shuffle并行度；3)自定义Partitioner；4)使用Broadcast进行Map端Join；5)倾斜数据集拆分后再Union；6)大表Key加盐，小表扩大N倍Join；7)Map端局部聚合；8)加盐局部聚合+去盐全局聚合。通过对症下药，可以有效缓解数据倾斜问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是数据倾斜

对 Spark/Hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。

对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟，当机器数量增加到3台时，理想的耗时为120 / 3 = 40分钟。但是，想做到分布式情况下每台机器执行时间是单机时的1 / N，就必须保证每台机器的任务量相等。不幸的是，很多时候，任务的分配是不均匀的，甚至不均匀到大部分任务被分配到个别机器上，其它大部分机器所分配的任务量只占总得的小部分。比如一台机器负责处理 80% 的任务，另外两台机器各处理 10% 的任务。

『不患多而患不均』，这是分布式环境下最大的问题。意味着计算能力不是线性扩展的，而是存在短板效应: 一个 Stage 所耗费的时间，是由最慢的那个 Task 决定。

由于同一个 Stage 内的所有 task 执行相同的计算，在排除不同计算节点计算能力差异的前提下，不同 task 之间耗时的差异主要由该 task 所处理的数据量决定。所以，要想发挥分布式系统并行计算的优势，就必须解决数据倾斜问题。

二、数据倾斜的危害

当出现数据倾斜时，小量任务耗时远高于其它任务，从而使得整体耗时过大，未能充分发挥分布式系统的并行计算优势。　　

另外，当发生数据倾斜时，部分任务处理的数据量过大，可能造成内存不足使得任务失败，并进而引进整个应用失败。　　

三、数据倾斜的