RDD五大特性和DataFrame互转

for your wish

已于 2022-02-26 09:58:43 修改

阅读量400

点赞数

CC 4.0 BY-SA版权

分类专栏：面试Interview 文章标签： spark

于 2022-02-24 09:37:15 首次发布

本文链接：https://blog.csdn.net/someInNeed/article/details/123104527

Spark 同时被 2 个专栏收录

41 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

面试Interview

20 篇文章

订阅专栏

本文介绍了Spark的RDD核心特性，包括其弹性、分布式特点，以及分区、分区函数、优先位置和依赖关系等五大特性。同时，文章讨论了宽窄依赖的概念，并详细阐述了如何在RDD与DataFrame之间进行转换，提供了将DataFrame转换为RDD的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RDD：弹性分布数据集

弹性：可以自动进行内存和磁盘间的数据存储切换，容错性高

分布式：多节点

五大特性

分区partition：一个RDD会有一个或多个分区

分区函数patitioner

优先位置PerferedLocation：对于数据p返回数据的优先位置

依赖关系：RDD之间的依赖关系

迭代计算

宽窄依赖

父子关系是一对一还是多对一，宽的切分出来一个stage

转dataframe

 //导入隐饰操作，否则RDD无法调用toDF方法
    import sparkSession.implicits._
    val peopleRDD = sparkSession.sparkContext
      .textFile("file:/E:/scala_workspace/z_spark_study/people.txt",2)
      .map( x => x.split(",")).map( x => Person(x(0),x(1).trim().toInt)).toDF()

将DataFrame转换成RDD

利用 .rdd