spark save parquet in impala dir not support add columns

在使用Spark保存Parquet数据至Impala分区表并添加新字段时,因字段顺序不符导致读取错误。文章详细解释了Impala v3.2.0-cdh6.3.1版本按字段顺序读取数据的特性,以及如何通过设置PARQUET_FALLBACK_SCHEMA_RESOLUTION参数解决该问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.问题:
项目中使用 spark save parquet 到 impala( impala 为分区表 ) 的目录下面,然后在 impala 中添加字段,报错.
例如:我将 spark 生成的 parquet 数据放到 impala 表 event_s_p186 相应的目录下,然后添加字段 aaa,字段顺序如下:
在这里插入图片描述
报错如下:
其中 day_id 为分区字段
在这里插入图片描述2. 原因
impala( v3.2.0-cdh6.3.1 ) 默认的情况下是按照字段顺序读取数据的,添加了一个字段 aaa ,由于 parquet 中的数据并没有 aaa ,也没有 aaa 的占位符,它会默认把 day_id 当做 aaa.

3.解决办法:
set PARQUET_FALLBACK_SCHEMA_RESOLUTION=name;

4.参考:
Hive vs Impala Schema Loading Case: Reading Parquet Files
PARQUET_FALLBACK_SCHEMA_RESOLUTION Query Option (CDH 5.8 or higher only)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

shengjk1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值