浅谈Spark中Job-Stage-Task之间的关系

最新推荐文章于 2025-02-26 18:38:06 发布

<一蓑烟雨任平生>

最新推荐文章于 2025-02-26 18:38:06 发布

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： Spark

本文链接：https://blog.csdn.net/weixin_45366499/article/details/116612873

Spark 专栏收录该内容

40 篇文章

订阅专栏

本文详细阐述了Spark中Job、Stage与Task的关系及其执行流程，同时深入探讨了RDD、Partition、Record及Task之间的联系，有助于理解Spark如何高效地进行数据处理。

（1）Spark-Job-Stage-Task之间的关系

在开始之前需要先了解Spark中Application，Job，Stage等基本概念，官方给出的解释如下表：

Term	Meaning
Application	用户编写的Spark应用程序,包括一个Driver和多个executors
Driver Program	运行main()函数并创建SparkContext进程
Cluster manager	在集群上获取资源的外部服务，如standalone ,yarn,Mesos
worker node	集群中可以运行程序代码的节点（机器）
Executor	运行在worker node上执行具体的计算任务，存储数据的进程
Task	被分配到一个Executor上的计算单元
Job	由多个任务组成的并行计算阶段，因RDD的Action产生
Stage	每个Job被分为小的计算任务组，每组称为一个stage
DAGScheduler	根据Job构建基于Stage的DAG，并提交Stage给TaskScheduler
TaskScheduler	将TaskSet提交给worker运行，每个executor运行什么task在此分配

如下图所示，一个Spark程序可以被划分为一个或多个Job，划分的依据是RDD的Action算子，每遇到一个RDD的Action操作就生成一个新的Job。

每个spark Job在具体执行过程中因为shuffle的存在，需要将其划分为一个或多个可以并行计算的stage，划分的依据是RDD间的依赖关系，当遇到宽依赖（Wide Dependency）时因需要进行shuffle操作，这涉及到了不同Partition之间进行数据合并，故以此为界划分不同的Stage。Stage是由Task组组成的并行计算，因此每个stage中可能存在多个Task，这些Task执行相同的程序逻辑，只是它们操作的数据不同。一般RDD的一个Partition对应一个Task,Task可以分为ResultTask和ShuffleMapTask。

在这里插入图片描述

（2）RDD-Partition-Records-Task之间的关系

通常一个RDD被划分为一个或多个Partition，Partition是Spark进行数据处理的基本单位，一般来说一个Partition对应一个Task，而一个Partition中通常包含数据集中的多条记录(Record)。注意不同Partition中包含的记录数可能不同。Partition的数目可以在创建RDD时指定，也可以通过reparation和coalesce等算子重新进行划分。

通常在进行shuffle的时候也会重新进行分区，这是对于key-value RDD，Spark通常根据RDD中的Partitioner来进行分区，目前Spark中实现的Partitioner有两种：HashPartitioner和RangePartitioner，当然也可以实现自定义的Partitioner，只需要继承抽象类Partitioner并实现numPartitions and getPartition(key: Any)即可。

在这里插入图片描述