Spark(21) -- Spark SQL -- DataFrame

最新推荐文章于 2023-02-09 17:13:52 发布

erainm

最新推荐文章于 2023-02-09 17:13:52 发布

阅读量269

点赞数

CC 4.0 BY-SA版权

分类专栏：大数据学习文章标签： spark

本文链接：https://blog.csdn.net/eraining/article/details/108941993

大数据学习专栏收录该内容

148 篇文章 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了Spark SQL中的DataFrame概念，包括DataFrame的性质、Schema信息、Row对象的使用，以及如何从RDD转换为DataFrame的两种方法。通过案例展示了从JSON、Parquet和CSV文件读取数据到DataFrame的过程，强调了DataFrame在大数据处理中的高效性和易用性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DataFrame它不是Spark SQL提出来的，而是早期在R、Pandas语言就已经有了的。就易用性而言，对比传统的MapReduce API，说Spark的RDD API有了数量级的飞跃并不为过。然而，对于没有MapReduce和函数式编程经验的新手来说，RDD API仍然存在着一定的门槛。另一方面，数据科学家们所熟悉的R、Pandas等传统数据框架虽然提供了直观的API，却局限于单机处理，无法胜任大数据场景。为了解决这一矛盾，Spark SQL 1.3.0在原有SchemaRDD的基础上提供了与R和Pandas风格类似的DataFrame API。新的DataFrame AP不仅可以大幅度降低普通开发者的学习门槛，同时还支持Scala、Java与Python三种语言。更重要的是，由于脱胎自SchemaRDD，DataFrame天然适用于分布式大数据场景。

1. DataFrame是什么

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。
在这里插入图片描述
使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行针对性的优化，最终达到大幅提升运行时效率。反观RDD，由于无从得知所存数据元素的具体内