一次关于Spark广播变量broadcast variable的优化

Jason的AI工坊

已于 2023-03-02 23:50:33 修改

阅读量1k

点赞数

CC 4.0 BY-SA版权

分类专栏： Spark 文章标签： spark 大数据 spark调优

于 2023-03-02 23:43:49 首次发布

本文链接：https://blog.csdn.net/Mister___Wang/article/details/129311503

文章讨论了由于广播变量设置不当在Spark应用中导致的ETLjobs异常，包括内存不足和ExecutorOOM问题。根本原因是`spark.sql.autoBroadcastJoinThreshold`参数与集群规模不匹配。建议包括调整广播阈值、检查Executor资源配置和优化其他相关参数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

如何通过配置广播变量broadcast variable去优化Spark application

今天，想和大家分享一个我在公司工作中遇到的有趣的Spark-sql问题：由广播变量引起的大量ETL jobs异常。上周，突然好几个同事反应有大批量的etl jobs由于广播连接timeout和Spark executor JVM OOM的异常从而导致spark application执行失败，导致一部分下游数据报表的delay。

# WARN MemoryStore: Not enough space to cache broadcast_6 in memory! (computed 4.9 GiB so far)
23/02/23 09:20:55 WARN BlockManager: Persisting block broadcast_6 to disk instead.
# java.lang.OutOfMemoryError: Java heap space

在本文中，我将深入探讨这些问题的原因，并提供一些优化建议，可以更好地利用集群资源。