Spark 中创建 DataFrame 的2种方式对比

闯闯桑

已于 2025-03-15 16:17:20 修改

阅读量919

点赞数 26

CC 4.0 BY-SA版权

文章标签： spark 大数据分布式 scala

于 2025-03-15 16:13:38 首次发布

本文链接：https://blog.csdn.net/m0_63322122/article/details/146280949

spark.createDataFrame(data).toDF("name", "age")

和

spark.createDataFrame(spark.sparkContext.parallelize(data), schema)

创建df的方式有什么区别？

在 Spark 中，创建 DataFrame 的方式有多种，其中两种常见的方式是：

spark.createDataFrame(data).toDF("name", "age")
spark.createDataFrame(spark.sparkContext.parallelize(data), schema)

这两种方式的主要区别在于 数据来源 和 模式（Schema）的定义方式。下面详细分析它们的区别和适用场景。

1. `spark.createDataFrame(data).toDF("name", "age")`

特点

数据来源：data 是一个本地集合（如 Seq 或 List），Spark 会将其并行化为分布式数据集（RDD）。
模式推断：Spark 会自动推断数据的模式（Schema），并根据列的顺序为列命名。
列名指定：通过 toDF("name", "age") 显式指定列名。

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

闯闯桑

关注关注

26
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

Spark学习:如何创建DataFrame？

nzbing的博客

01-22

3847

一、从RBDMS(关系型数据库)创建DataFrame 1、spark安装目录没有提供与数据库连接相关的Jar包,因此,对于想访问的数据库,需要把相关的Jar包拷贝到SPARK_HOME的Jars文件夹,在此贴上我的配置 spark:3.1.2 oracle:Personal Oracle Database 11g Release 11.2.0.1.0 - 64bit Production jar:ojdbc6.jar 2、使用spark的read API读取数据库,通过参数指定数据库驱动、数据库地址、用户

Spark SQL | DataFrame的各种玩法

weixin_43646592的博客

06-28

1003

Spark SQL | DataFrame的各种玩法

参与评论您还未登录，请先登录后发表或查看评论

Spark中创建DataFrame三种方式

知其然，知其所以然

03-31

1029

美图欣赏：一.背景：在老的版本中，SparkSQL提供两种SQL查询起始点，一个叫SQLContext，用于Spark自己提供的SQL查询，一个叫HiveContext，用于连接Hive的查询，SparkSession是Spark最新的SQL查询起始点，实质上是SQLContext和HiveContext的组合，所以在SQLContext和HiveContext上可用的API在SparkS...

Spark DataFrame操作

just C/C++

10-27

1002

操作的对应的视频如下，在腾讯课堂可免费查看所有的视频与下载简介资料个人大数据平台的搭建与学习实践-PySpark-学习视频教程-腾讯课堂 (qq.com) PySpark的认识和使用简介 DataFrame在Spark 1.3时加入，其前身是Spark 1中的SQL Context、Streaming Context、Hive Context等对象，它类似于关系数据库中的表，是行和列进行组织数据。 DataFrame相当是一张二维表，可以使用SparkSession中的各种函数来创建。按照

Spark 中，创建 DataFrame 的方式（Scala语言）

热门推荐

martin_liang的专栏

03-29

4万+

转自：https://vimsky.com/article/2708.html跟关系数据库的表(Table)一样，DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。创建DataFrame有很多种方法，比如从本地List创建、从RDD创建或者从源数据创建，下面简要介绍创建DataFrame的三种方法。方法一，Spark...

Spark: createDataFrame() vs toDF()

wuyy0224的博客

10-14

2418

通过使用toDF()方法，我们不能控制模式的定制，而在createDataFrame()方法中，我们可以完全控制模式的定制。列名的列类型为字符串，可归零标志为真，同样，列年龄的列类型为整数，可归零标志为假。所以，从上面我们可以得出结论，在toDF()方法中，我们不能控制列的类型和nullable标志。当我们在集群上运行我们的代码或在生产中运行我们的代码时，使用createDataFrame()方法是很好的，因为它有利于本地测试。通过createDataFrame()方法，我们可以控制完整的模式定制。

SparkSQL DataFrame的介绍及创建

小叮当的博客

11-30

720

DataFrame是以二维表格形式的数据存储结构。在SparkSQL中同样是分布式数据集，有分区并且可以并行计算。StructType对象是描述整个DataFrame的表结构。StructField对象描述一个列的信息。Row对象记录一行数据。Column对象记录一列数据并包含列信息。相同点：都是弹性分布式数据集。不同点：DataFrame：存储结构限定为二维表结构化数据。RDD：存储数据没有任何限制。

Spark Sql 和DataFrame总结

cjl的博客

10-21

1748

Spark Sql 和DataFrame总结Spark Sql总结1. Spark SQL概述2. DataFrame2.1 DataFrame概述2.2 DataFrame vs RDD 区别2.3 Pandas DataFrame vs Spark DataFrame3. DataFrame 操作3.1 创建DataFrame3.1.1 从RDD创建DataFrame3.1.2 从CSV文件创建DataFrame3.1.3连接数据库3.1.4 读取json数据3.2 DataFrame操作3.3 综合

Spark SQL DataFrame 算子

2401_84052244的博客

07-31

3375

DataFrame 算子与 SQL 查询语句之间，并没有优劣之分，他们可以实现同样的数据应用，而且在执行性能方面也是一致的。因此，你可以结合你的开发习惯与偏好，自由地在两者之间进行取舍。DataFrame 本身支持的算子之外，在功能上，SQL 完全可以实现同样的数据分析。给定 DataFrame，你只需通过 createTempView 或是 createGlobalTempView 来创建临时表，然后就可以通过写 SQL 语句去进行数据的探索、倾斜、转换与分析。

Spark创建空的df

南风知我意

11-18

1215

Spark创建空df

Spark创建DataFrame

rainmeter1的博客

08-10

453

方法一，Spark中使用toDF函数创建DataFrame 通过导入(importing)Spark sql implicits, 就可以将本地序列(seq), 数组或者RDD转为DataFrame。只要这些数据的内容能指定数据类型即可。需要注意spark和scala的版本，否则会报找不到function（Note that, Spark 2.x is pre-built with Scala 2.11 except version 2.4.2, which is pre-built with Scala

spark创建DF的两种方式

qq_34896163的博客

11-20

5280

方式一：反射：(使用这种方式来创建DF是在你知道字段具体有哪些) 1.创建一个SparkContext，然后再创建SQLContext 2.先创建RDD，对数据进行整理，然后关联case class，将非结构化的数据转换成结构化数据 3.显示的调用toDF方法，将RDD转换成DF（需要隐私转换） 4.注册临时表 5.执行SQL(Transformation,lazy) 6.zhixAction v...

Spark创建Dataframe的方法

weixin_45744450的博客

01-02

646

通过RDD创建dataframe的方式1: 把rdd[T]变成 RDD[case class类型]就可以直接toDF 通过RDD[tuple]创建dataframe 通过RDD[JavaBean]创建dataframe 通过RDD[scala bean] 创建dataframe 通过 RDD[Row] 来创建dataframe 1.通过RDD创建dataframe import org.apa...

Spark DataFrame之创建DataFrame

Toby的博客

04-06

3029

创建DataFrame的各种例子代码，主要是用来构造测试用例，方便快速测试方法、UDF之类。参考spark官方文档总共15个例子，每个例子分别使用了scala和python语言code，两种语言的例子是一一对应的，序号相同的就是同一个例子。包括Array、Seq数据格式存储的数据，包括稀疏向量、稠密向量的特征列，包括含有缺失值的列等，看完就再也不怕用各种奇形怪状的数据类型来创建DataFrame了。一、In Scala 1、常规情况 val dataset = spark.create

Spark---创建DataFrame的方式

yaya_jn的博客

11-30

2144

5、DataFrame是一个Row类型的RDD，df.rdd()/df.javaRdd()。3、DataFrame原生API可以操作DataFrame。4、注册成临时表时，表中的列默认按ascii顺序显示列。2、df.show()默认显示前20行数据。ErrorIfExists：如果存在就报错。1、可以两种方式读取json格式的文件。两种方式创建DataFrame。Ignore：如果存在就忽略。Overwrite：覆盖。

spark sql与dataframe

04-12

### Spark SQL 与 DataFrame 的关系及使用方法 #### 关系分析 Spark SQL 是 Apache Spark 中的一个模块，用于处理结构化数据。它提供了一个编程抽象称为 DataFrame，并作为分布式 SQL 查询引擎的作用[^1]。DataFrame 是一种以表格形式存储的数据结构，类似于传统数据库中的表或者 Pandas 中的 DataFrame。然而，Spark DataFrame 是分布式的，能够在大规模集群上进行高效的并行计算。 Spark SQL 提供了两种主要的方式来操作数据：一是通过 DataFrame API 进行编程式操作；二是通过标准的 SQL 查询语言来进行声明式操作[^2]。这两种方式最终都会被 Catalyst 优化器编译成底层的 RDD 操作，从而保证性能最优。 --- #### 使用方法对比 ##### 1. **DataFrame API** 通过 DataFrame API 可以编写更加灵活和强大的代码逻辑。以下是其特点： - 支持链式调用，便于构建复杂的 ETL 流程。 - 自动利用 Catalyst 优化器对查询计划进行优化。 - 数据不可变且延迟执行，适合批处理场景。下面是一个简单的例子展示了如何使用 DataFrame API 来完成 WordCount： ```python from pyspark.sql import SparkSession from pyspark.sql.functions import col, split, explode if __name__ == "__main__": spark = SparkSession.builder \ .appName("WordCount") \ .master("local[*]") \ .getOrCreate() # 加载文本文件到 DataFrame df = spark.read.text("/path/to/input/file") # 将每行拆分为单词列表 words_df = df.select(explode(split(col("value"), "\\s+")).alias("word")) # 对每个单词计数 result_df = words_df.groupBy("word").count().orderBy(col("count").desc()) # 展示结果 result_df.show(truncate=False) spark.stop() ``` 此代码片段说明了如何通过 DataFrame API 实现分词、聚合以及排序功能[^4]。 --- ##### 2. **SQL 风格** 对于熟悉 SQL 的用户来说，可以直接注册临时视图并通过 SQL 查询来获取所需的结果。这种方式的优点在于语法简单直观，易于维护。继续以上述 WordCount 为例，可以改写为如下 SQL 形式： ```python from pyspark.sql import SparkSession if __name__ == "__main__": spark = SparkSession.builder \ .appName("WordCount_SQL") \ .master("local[*]") \ .getOrCreate() # 加载文本文件到 DataFrame 并创建临时视图 df = spark.read.text("/path/to/input/file") df.createOrReplaceTempView("lines") # 执行 SQL 查询统计单词频率 word_count_df = spark.sql(""" SELECT word, COUNT(*) AS count FROM ( SELECT EXPLODE(SPLIT(value, '\\s+')) AS word FROM lines ) GROUP BY word ORDER BY count DESC """) # 显示前几条记录 word_count_df.show(truncate=False) spark.stop() ``` 上述代码同样实现了基于 SQL 的 WordCount 功能[^5]。 --- #### 联系与区别 | 特性 | DataFrame API | SQL 风格 | |---------------------|---------------------------------------|---------------------------------------| | 编程模型 | 基于 Python 或 Scala 的函数式编程 | 类似传统的 SQL 查询 | | 学习曲线 | 较陡峭 | 如果已有 SQL 基础，则较为平缓 | | 性能 | 同样由 Catalyst 优化 | 同样由 Catalyst 优化 | | 灵活性 | 更加灵活，适用于复杂业务逻辑 | 主要针对固定模式的查询需求 | 两者的核心差异体现在表达方式的不同：前者更适合开发者习惯，而后者则更贴近分析师的需求[^3]。 ---

Spark 中创建 DataFrame 的2种方式对比

1. spark.createDataFrame(data).toDF("name", "age")

特点

1. `spark.createDataFrame(data).toDF("name", "age")`