目录 前言 一、pyspark.sql.SparkSession 二、函数方法 1.parallelize 2.createDataFrame 基础语法 功能 参数说明 返回 data参数代码运用: schema参数代码运用: 3.getActiveSession 基础语法: 功能: 代码示例 ?4.newSession 基础语法: ?功能: 5.range 基础语法: ?功能: 参数说明: 代码示例: ?6.sql 基础语法: ?功能: 参数说明: 代码示例: 7.table 基础语法 功能: 点关注,防走丢,如有纰漏之处,请留言指教,非常感谢 参阅 前言 Spark SQL是用于结构化数据处理的Spark模块。它提供了一种称为DataFrame的编程抽象,是由SchemaRDD发展而来。不同于SchemaRDD直接继承RDD,DataFrame自己实现了RDD的绝大多数功能。Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式的数据。 Spark SQL目前支持Scala、Java、Python三种语言,支持SQL-92规范。 那么根据上篇文章: PySpark数据分析基础:PySpark基础功