spark常见问题

写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈!

1.  执行Broadcast大表时,等待超时异常(awaitResult

现象:org.apache.spark.SparkException: Exception thrown in awaitResult:

java.util.concurrent.TimeoutException: Futures timed out after [300seconds]

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

20200428150606130.png

原因分析:当数据需要broacast到executor上时,由于数据量较大 、broacast超时导致。

解决方案:

  设置spark.sql.autoBroadcastJoinThreshold=-1 不broadcast小表,直接走shuffle。(弊端:时间花费长,影响较大)

2.Task任务在写文件时,发生管道中断关闭异常ClosedByInterruptException

现象:Uncaught exception while reverting writes to file /data03/yarn/……………

java.nio.channels.ClosedByInterruptException

20200428150607671.png

解决方案:查看该Task任务是否是推测执行任务,如果是属于正常现象,不影响任务。

3.DiskBlockManager 在创建本地目录失败

现象:Failed to create local dir in /data10/yarn/………….

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpYW94aWFvaGFja2Vy,size_16,color_FFFFFF,t_70

原因分析:这个错误一般是磁盘满了或者要么是磁盘坏了。联系大数据平台运维人员。

4.SparkSQL访问HIVE表时,找不到数据库或者元数据信息

现象:org.apache.spark.sql.catalyst.analysis.NoSuchDatabaseException: Database 'XXXX' not found;

解决方案:Step 1:查看hive的配置文件是否正确。

                  Step 2:在Step 1 基础上,查看是否存在该数据库。

                  Step 3:查看SparkSession 创建方法是否启用了Hive支持。正确的创建SparkSession 如下图:

20200428150608542.png

5.使用wholeTextFiles读取文件时,报非法参数异常

现象:Java.lang.IllegalArgumentException:……………..who

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值