《深入浅出Apache Spark》系列③：Spark SQL解析层优化策略与案例解析

数新智能

于 2024-11-07 14:14:08 发布

阅读量1k

点赞数 10

CC 4.0 BY-SA版权

文章标签： spark sql 大数据

本文链接：https://blog.csdn.net/datacreating/article/details/143592354

导读：本系列是Spark系列分享的第三期。第一期分享了Spark Core的一些基本原理和一些基本概念，包括一些核心组件。Spark的所有组件都围绕Spark Core来运转，其中最活跃的一个上层组件是Spark SQL。第二期分享则专门介绍了Spark SQL的基本架构和原理。从第三期开始，后续的分享都围绕着Spark SQL展开，尤其是Spark SQL的优化。Spark作为一个常用的批处理大数据引擎，在各大公司的这个业务线上，存在于离线计算及一些机器查询的场景，而这些场景下最常用的方式就是兼具易用性和学习门槛低等特点的 Spark SQL。今天的分享是关于解析层及其优化，解析层处于Spark SQL处理流程的第一个阶段，和后续将要分享的优化内容相比，较为简单且易于大家理解。

本次分享主要分为五个部分：

产品介绍
Spark SQL解析层原理
优化案例
总结
Q&A环节

一、产品介绍

首先介绍数新网络与Spark SQL相关的两个主要产品。

第一个是CyberEngine，也叫Cyber数智引擎。Cyber数智引擎旨在构建一个基于云原生的数据湖底座，可以支持用户更好地去分析和挖掘数据，提升自身在市场和商业上的竞争力。Spark自从开源以来很快成为大数据领域的事实标准，CyberEngine支持对Spark SQL的管理。数新网络基于Spark SQL实现了统一的SQL查询平台，即CyberSQL。

另一个Spark相关产品是CyberData。CyberData是一个数据开发平台，基于批流一体、湖仓一体、数智一体，支持公有云、私有云、混合云，并且支持各种大数据文件格式，包括结构化、半结构化和非结构化数据，在此基础上，提供了各种数据治理、数据服务、数据调度和数据开发的能力。

二、Spark解析层原理

1. Spark SQL执行流程

Spark SQL的执行流程经过了解析层、优化层、执行计划层，直到最后成为真正可执行的物理进程（例如JVM进程或Native进程）。执行流程的第一步就是解析层，解析层中的Spark SQL Parser作为最前端的组件，该组件封装了很多子组件，其中很多是基于 ANTLR 实现的。在此基础上，Spark SQL 实现了对 SQL 的解析。

2.ANTLR4编译生成的核心接口和抽象实现

ANTLR4 对SQL语言提供支持，首先需要定义语法模板。ANTLR4语法模板的以