从mongoDB里加载到pyspark总是有bson.int64.int64的数据

在将从MongoDB获取的数据转换为pysparkDataFrame时,遇到IntegerType不接受bson.int64.Int64类型的问题。通过在转换数据阶段将此类值转为int,然后创建DataFrame并指定LongTypeschema,成功避免了错误并确保数据包含数值。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

首先导入的时候,就会报IntegerType not accept blabla

当你把schema指定为StringType,再用cast转成IntegerType,里面的值会是Null。

from pyspark.sql import SparkSession
from pyspark.sql.types import StructField, StructType, StringType, LongType

spark = SparkSession.builder.appName("example").getOrCreate()
schema = StructType([
    StructField("created_at", StringType(), True)
])
df = spark.createDataFrame(documents, schema=schema)
df = df.withColumn("created_at", col("created_at").cast("integer"))

而且如果有这个类型的数据,随便df.show()一下它就会报:

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 3.0 failed 4 times, most recent failure: Lost task 0.3 in stage 3.0 (TID 55) (driver-7b9bff5d64-v94tb executor driver): net.razorvine.pickle.PickleException: expected zero arguments for construction of ClassDict (for bson.int64.Int64). This happens when an unsupported/unregistered class is being unpickled that requires construction argumen

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值