写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!
1. 执行Broadcast大表时,等待超时异常(awaitResult)
现象:org.apache.spark.SparkException: Exception thrown in awaitResult:
java.util.concurrent.TimeoutException: Futures timed out after [300seconds]
原因分析:当数据需要broacast到executor上时,由于数据量较大 、broacast超时导致。
解决方案:
设置spark.sql.autoBroadcastJoinThreshold=-1 不broadcast小表,直接走shuffle。(弊端:时间花费长,影响较大)
2.Task任务在写文件时,发生管道中断关闭异常ClosedByInterruptException
现象:Uncaught exception while reverting writes to file /data03/yarn/……………
java.nio.channels.ClosedByInterruptException
解决方案:查看该Task任务是否是推测执行任务,如果是属于正常现象,不影响任务。
3.DiskBlockManager 在创建本地目录失败
现象:Failed to create local dir in /data10/yarn/………….
原因分析:这个错误一般是磁盘满了或者要么是磁盘坏了。联系大数据平台运维人员。
4.SparkSQL访问HIVE表时,找不到数据库或者元数据信息
现象:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'XXXX' not found;
解决方案:Step 1:查看hive的配置文件是否正确。
Step 2:在Step 1 基础上,查看是否存在该数据库。
Step 3:查看SparkSession 创建方法是否启用了Hive支持。正确的创建SparkSession 如下图:
5.使用wholeTextFiles读取文件时,报非法参数异常
现象:Java.lang.IllegalArgumentException:……………..who