1.遇到的问题
由于我对数据进行了df.groupBy操作,导致我另存到HDFS上的csv文件每隔一行就是一个表头。
2.解决办法
(1)如果只有第一行有表头可以在hive建表时在最后一行添加这样一行代码
TBLPROPERTIES ('skip.header.line.count'='1')
这样就不会读取第一行的表头了
(2)可是我这是每隔一行就有一行表头,就在写入的时候不写入表头就可以
df.write.option("header", "false")
.option("delimiter", ",")