spark源码阅读笔记(详)_如何阅读spark源码资源-CSDN下载

需积分: 24 184 浏览量 2018-05-16 19:50:53 上传评论收藏 1.62MB DOCX 举报

### Spark源码解析要点 #### 一、Spark概述与特性 **Spark** 是一款由加州大学伯克利分校AMP实验室研发的数据处理框架，它极大简化了大数据应用的开发流程，支持多种编程语言如Java、Scala、Python和R，使得开发者可以根据自己的需求选择最适合的语言。 #### 二、Spark的关键技术与设计思想 1. **通信框架**: Spark采用了**Akka** 和 **Netty** 这两种成熟的通信技术，这些技术已经被广泛应用于生产环境，具有稳定性和高效性。 2. **Shuffle实现**: Spark中的Shuffle功能主要借鉴了**MapReduce**的设计思路，虽然实现细节有所不同，但核心理念相似。Shuffle是数据处理过程中的重要环节，用于在不同节点间交换数据。 3. **资源调度**: Spark支持多种资源管理器，包括 **YARN** 和 **Mesos**，这使得Spark能够在不同的集群环境中运行，增强了其适应性和灵活性。 4. **与Hadoop的对比**: Spark被认为是Hadoop的一个增强版本，它们都基于**MapReduce**的思想，但Spark在多个方面进行了优化： - **DAG编程模型**: Spark采用了DAG(有向无环图)作为数据处理模型，这种模型更适合复杂的多阶段数据处理任务。 - **资源申请方式**: Spark采用Executor来运行Task，多个Task可以在同一个JVM中运行，减少了资源申请次数。 - **RDD缓存**: Spark允许将中间结果缓存在内存中，这对于迭代式算法特别有用。 - **容错机制**: Spark通过依赖关系重建失败的任务，而不是重新运行整个Job。 #### 三、Spark的部署模式本次源码分析基于**Spark 1.2版本**，并聚焦于**standalone模式**，即独立部署模式。此模式下，Spark服务完全自包含，无需依赖其他资源管理系统。它是Spark YARN和Mesos模式的基础。 #### 四、Master与Worker的启动过程 **Master** 和 **Worker** 是Spark集群的核心组成部分，它们是持久存在的进程，不随Job的结束而消失。相比之下，Driver和Executor是随Job的提交而动态创建的。 - **Master节点启动过程**: Master节点的启动代码位于`org.apache.spark.deploy.master`包中。启动过程中最关键的部分是通过Akka注册Master节点： ```scala def main(argsArray: Array[String]): Unit = { SignalLogger.register(log) val conf = new SparkConf val args = new MasterArguments(argsArray, conf) /* 这是最关键的部分，在这里通过akka注册了master节点 */ val (actorSystem, _, _) = startSystemAndActor(args.host, args.port, args.webUiPort, conf) /* 等待注册完成，系统终止 */ actorSystem.awaitTermination() } ``` `startSystemAndActor`函数负责初始化Akka Actor系统，并在此基础上注册Master节点。这一步是Master节点启动的核心步骤。 - **Worker节点启动过程**: Worker节点负责执行由Master分配的任务。它们的启动过程与Master类似，也是通过Akka Actor系统进行注册，并监听Master的指令。具体代码实现与Master节点相似，但在功能上更侧重于任务执行。 #### 五、Spark的架构与组件 - **Driver程序**: 是Job的主控制中心，负责提交Job和创建执行计划。 - **Executor**: 负责执行Task，并可以缓存中间结果。 - **Task**: 是执行单元，由Executor运行。 - **RDD**: 弹性分布式数据集，是Spark的核心抽象，支持容错和并行操作。 #### 六、Spark源码解析方法论 1. **从Main函数开始**: 分布式程序的解析往往需要从系统的初始化部分入手，理解系统如何启动以及各组件之间的交互。 2. **关注核心组件**: 如Master和Worker的启动过程、Driver与Executor的工作原理等。 3. **深入关键函数**: 对于关键函数如`startSystemAndActor`等进行细致分析，理解其工作流程。 4. **跟踪数据流**: 关注数据是如何在不同组件之间传输的，特别是在Shuffle阶段。 5. **容错与恢复机制**: 理解Spark如何处理失败的任务，并能够快速恢复。 #### 七、小结通过以上分析，我们可以看出Spark不仅在技术实现上采用了成熟可靠的组件，而且在设计理念上也有诸多创新之处，如DAG模型、资源申请方式和容错机制等。这些特性共同构成了Spark强大的数据处理能力。对于想要深入了解Spark内部机制的读者来说，掌握这些关键点是十分必要的。

资源推荐

资源详情

资源评论

Spark 源码阅读笔记

目录
 源码阅读笔记 
 源码之  与  
 节点的启动过程分析
 节点启动和注册
 进程的启动 
 节点主要流程 
 节点主要流程 
 节点主要流程 
启动流程图 
 境变量 
 
 
 !! 
 !! 分区列表。 
 !! 的依赖列表 
窄依赖 
宽依赖 
 !! 的分区计算函数 "
分区器 
位置偏好 
全排序 
水塘采样 
获取分区边界 
# 的划分和提交 
$% 的提交 
# 的划分 
# 的提交 
"& 启动流程 
"'(&) 的启动
"* 的注册 
"资源调度 
"& 的启动 "
 的分发 
(& 初始化 
&%+#, "
&-. "
, 的调度 "
任务本地性 "
 的分发 "
 的运行 

 多线程模型 

+ & 的多进程模型和  的多线程模型

, 的执行（一） "

(&/ 

(&/+,0(/1 

2((&/+# 运行原理

(&/+# 运行原理

 的执行（二） "

(&/+,0(/  

345 网络传输服务 

"(&/ 相关参数调优

 &, 

存储模块 

)+# 初始化 

持久化策略 "

数据持久化到内存中 

数据持久化到磁盘中 

数据块的获取 

剩余63页未读，继续阅读

评论收藏

内容反馈

mylife512

粉丝: 1465

spark源码阅读笔记(详)

spark源码阅读笔记

Spark学习源码

SparkCore源码阅读

Spark-2.3.1源码解读

spark 优秀资源源码(个人整理)

spark源码以及官方的示例（方便阅读源码学习）

C多线程编程实战

C例子：多线程

多线程操作串口示例（带modbus

Spark-SourceCode-Reading:Spark原始阅读，注释与笔记-spark source code

spark_source_code_breakdown:Spark学习与源码阅读

spark-RDD的特性介绍及源码阅读必备基础

InsideSourceCode:读Spark源码的笔记

源代码阅读

spark:spark学习笔记

Spark笔记1

spark基础的学习笔记

读书笔记：IDEA上导入spark源码阅读步骤即在IDEA上对scala程序编译.zip

Spark2.2版本内核源码深度剖析（完整笔记）

Spark 源码编译完整教程（maven编译+sbt编译+编译工具包+操作步骤笔记+依赖包下载镜像设置）

07-尚硅谷大数据技术之Spark源码1

Spark 学习之路，包含 Spark Core，Spark SQL，Spark Streaming，Spark mllib 学

深入理解Spark核心思想与源码分析

spark-2.2:spark-2.2源码阅读

spark_ml_reading:spark_ml_源码阅读

spark初始化源码阅读sparkonyarn的client和cluster区别

spark-sql-2.3-source-code-interpretation:spark sql 2.3原始代码理解自己的阅读源码后的总结，欢迎大家阅读-spark source code

【Android】摇摆动画（84/100）

navicat premiunm

最新资源