Spark RDD序列化与血缘关系

本文深入探讨了Spark中的RDD序列化机制,包括闭包检查和Kryo序列化框架,强调了序列化在分布式计算中的重要性。同时,文章详细阐述了RDD的血缘关系(Lineage),说明了如何通过血缘关系恢复丢失数据分区。示例代码展示了RDD操作导致的任务序列化问题及其解决方案。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

RDD序列化

从计算的角度, 算子以外的代码都是在 Driver 端执行, 算子里面的代码都是在 Executor端执行。所以需要涉及到网络传输,且如果计算中涉及到算子以外的数据那么就要求这个数据进行序列化,因为没有序列化就代表无法进行网络传输也就无法将值传到其它Excutor端执行,就会发生错误。

(1)闭包检查
在scala的函数式编程中,函数内经常会用到函数外变量,这样就会形成闭包效果,因此,在分布式系统中,就会存在对象需要在Driver和Executor间传递,那么就需要传递的对象被序列化,因此在计算之前就会进行闭包检查,即检查使用到的对象是否进行了序列化。

(2)Kryo序列化框架
这个序列化框架不同于Java的序列化框架,相比于java的序列化框架,这个框架速度更快,生成的序列化文件更小,而且这个框架会忽略Java的一些序列化机制,例如Java中使用了transient关键字忽略对一些数据的序列化,而Kryo会忽略这个关键字。Spark 出于性能的考虑,Spark2.0 开始支持另外一种 Kryo 序列化机制。Kryo 速度是 Serializable 的 10 倍。当 RDD 在 Shuffle 数据的时候,简单数据类型、数组和字符串类型已经在 Spark 内部使用 Kryo 来序列化。

样例:

def main(args: Array[String]): Unit = {
   
   
    val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[2]")
    val sc: SparkContext = new SparkContext(conf)

    val rdd: RDD[String] = sc.makeRDD(Array("hello world", 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值