spark常见问题

最新推荐文章于 2025-06-27 11:20:16 发布

原创

最新推荐文章于 2025-06-27 11:20:16 发布 · 2.1k 阅读

·

21

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

写文章只是为了学习总结或者工作内容备忘，不保证及时性和准确性，看到的权当个参考哈！

1. 执行Broadcast大表时，等待超时异常（awaitResult）

现象：org.apache.spark.SparkException: Exception thrown in awaitResult:

java.util.concurrent.TimeoutException: Futures timed out after [300seconds]

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析：当数据需要broacast到executor上时，由于数据量较大、broacast超时导致。

解决方案：

设置spark.sql.autoBroadcastJoinThreshold=-1 不broadcast小表，直接走shuffle。（弊端：时间花费长，影响较大）

2.Task任务在写文件时，发生管道中断关闭异常ClosedByInterruptException

现象：Uncaught exception while reverting writes to file /data03/yarn/……………

java.nio.channels.ClosedByInterruptException

解决方案：查看该Task任务是否是推测执行任务，如果是属于正常现象，不影响任务。

3.DiskBlockManager 在创建本地目录失败

现象：Failed to create local dir in /data10/yarn/………….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析：这个错误一般是磁盘满了或者要么是磁盘坏了。联系大数据平台运维人员。

4.SparkSQL访问HIVE表时，找不到数据库或者元数据信息

现象：org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'XXXX' not found;

解决方案：Step 1：查看hive的配置文件是否正确。

Step 2：在Step 1 基础上，查看是否存在该数据库。

Step 3：查看SparkSession 创建方法是否启用了Hive支持。正确的创建SparkSession 如下图：

5.使用wholeTextFiles读取文件时，报非法参数异常

现象：Java.lang.IllegalArgumentException:……………..who

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。