RDD:弹性分布数据集
弹性:可以自动进行内存和磁盘间的数据存储切换,容错性高
分布式:多节点
五大特性
分区partition:一个RDD会有一个或多个分区
分区函数patitioner
优先位置PerferedLocation:对于数据p返回数据的优先位置
依赖关系:RDD之间的依赖关系
迭代计算
宽窄依赖
父子关系是一对一还是多对一,宽的切分出来一个stage
转dataframe
//导入隐饰操作,否则RDD无法调用toDF方法
import sparkSession.implicits._
val peopleRDD = sparkSession.sparkContext
.textFile("file:/E:/scala_workspace/z_spark_study/people.txt",2)
.map( x => x.split(",")).map( x => Person(x(0),x(1).trim().toInt)).toDF()
将DataFrame转换成RDD
利用 .rdd