Spark运行架构
基本概念:
-
Application:用户编写的
Spark
应用程序,包含一个Driver
和多个Executor
。 -
Driver:
Spark
中的Driver
即运行上述Application
的main
函数并创建SparkContext
,创建SparkContext
的目的是为了准备Spark
应用程序的运行环境,在Spark
中有SparkContext
负责与ClusterManager
通信,进行资源申请、任务的分配和监控等,当Executor
部分运行完毕后,Driver
同时负责将SparkContext
关闭。 -
Executor:是运行在工作节点
WorkerNode
的一个进程,负责运行Task
。 -
RDD:弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限的共享内存模型。
-
DAG:有向无环图,反映
RDD
之间的依赖关系。 -
Ta