浅谈Spark中Job-Stage-Task之间的关系

本文详细阐述了Spark中Job、Stage与Task的关系及其执行流程,同时深入探讨了RDD、Partition、Record及Task之间的联系,有助于理解Spark如何高效地进行数据处理。

(1)Spark-Job-Stage-Task之间的关系

在开始之前需要先了解Spark中Application,Job,Stage等基本概念,官方给出的解释如下表:

TermMeaning
Application用户编写的Spark应用程序,包括一个Driver和多个executors
Driver Program运行main()函数并创建SparkContext进程
Cluster manager在集群上获取资源的外部服务,如standalone ,yarn,Mesos
worker node集群中可以运行程序代码的节点(机器)
Executor运行在worker node上执行具体的计算任务,存储数据的进程
Task被分配到一个Executor上的计算单元
Job由多个任务组成的并行计算阶段,因RDD的Action产生
Stage每个Job被分为小的计算任务组,每组称为一个stage
DAGScheduler根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler
TaskScheduler将TaskSet提交给worker运行,每个executor运行什么task在此分配

如下图所示,一个Spark程序可以被划分为一个或多个Job,划分的依据是RDD的Action算子,每遇到一个RDD的Action操作就生成一个新的Job。

每个spark Job在具体执行过程中因为shuffle的存在,需要将其划分为一个或多个可以并行计算的stage,划分的依据是RDD间的依赖关系,当遇到宽依赖(Wide Dependency)时因需要进行shuffle操作,这涉及到了不同Partition之间进行数据合并,故以此为界划分不同的Stage。Stage是由Task组组成的并行计算,因此每个stage中可能存在多个Task,这些Task执行相同的程序逻辑,只是它们操作的数据不同。一般RDD的一个Partition对应一个Task,Task可以分为ResultTask和ShuffleMapTask。

在这里插入图片描述

(2)RDD-Partition-Records-Task之间的关系

通常一个RDD被划分为一个或多个Partition,Partition是Spark进行数据处理的基本单位,一般来说一个Partition对应一个Task,而一个Partition中通常包含数据集中的多条记录(Record)。 注意不同Partition中包含的记录数可能不同。Partition的数目可以在创建RDD时指定,也可以通过reparation和coalesce等算子重新进行划分。

通常在进行shuffle的时候也会重新进行分区,这是对于key-value RDD,Spark通常根据RDD中的Partitioner来进行分区,目前Spark中实现的Partitioner有两种:HashPartitioner和RangePartitioner,当然也可以实现自定义的Partitioner,只需要继承抽象类Partitioner并实现numPartitions and getPartition(key: Any)即可。

在这里插入图片描述

将上面的概念串联起来,可以得到下面的运行层次图:
在这里插入图片描述


以上内容仅供参考学习,如有侵权请联系我删除!
如果这篇文章对您有帮助,左下角的大拇指就是对博主最大的鼓励。
您的鼓励就是博主最大的动力!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

<一蓑烟雨任平生>

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值