Spark（12）：RDD文件读取与保存

最新推荐文章于 2023-11-08 16:04:32 发布

原创最新推荐文章于 2023-11-08 16:04:32 发布 · 520 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#spark #大数据 #bigdata

Spark 专栏收录该内容

41 篇文章

订阅专栏

文章详细介绍了Spark中数据源的划分，包括text文件的读取与保存，sequence文件作为Hadoop的二进制key-value对存储方式，以及object对象文件的序列化操作。通过示例代码展示了如何使用Spark进行这些操作。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0. 相关文章链接

Spark文章汇总

1. Spark数据源划分

Spark 的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统：

文件格式分为：text 文件、csv 文件、sequence文件以及 Object 文件；
文件系统分为：本地文件系统、HDFS、HBASE 以及数据库；

2. text文件

// 读取输入文件 
val inputRDD: RDD[String] = sc.textFile("input/1.txt") 
 
// 保存数据 
inputRDD.saveAsTextFile("output")

3. sequence 文件

SequenceFile 文件是 Hadoop 用来存储二进制形式的 key-value 对而设计的一种平面文件(Flat
File)。在 SparkContext 中，可以调用 sequenceFile[keyClass, valueClass](path)。

// 保存数据为SequenceFile 
dataRDD.saveAsSequenceFile("output") 
 
// 读取SequenceFile文件 
sc.sequenceFile[Int,Int]("output").collect().foreach(println)

4. object 对象文件

object 对象文件对象文件是将对象序列化后保存的文件，采用 Java 的序列化机制。可以通过objectFile[T: ClassTag](path)函数接收一个路径，读取对象文件，返回对应的 RDD，也可以通过调用 saveAsObjectFile()实现对对象文件的输出。因为是序列化所以要指定类型。

// 保存数据 
dataRDD.saveAsObjectFile("output") 
 
// 读取数据 
sc.objectFile[Int]("output").collect().foreach(println)

注：其他Spark相关系列文章链接由此进 -> Spark文章汇总