Spark core 弹性式数据集RDD

难以言喻wyy

已于 2023-07-10 21:57:35 修改

阅读量563

点赞数

CC 4.0 BY-SA版权

文章标签： spark 大数据分布式

于 2023-04-07 10:12:46 首次发布

本文链接：https://blog.csdn.net/weixin_53898747/article/details/130003973

2.Spark通过申请资源创建调度节点和计算节点：

3.Spark框架根据需求将计算逻辑根据分区划分不同的任务：

4.调度节点将任务根据计算节点状态发送到对应的计算节点进行计算：

四.创建RDD

4.1 由现有集合创建：

4.2 引用外部存储系统中的数据集：

4.3 textFile & wholeTextFiles

一.RDD简介

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

弹性

存储的弹性：内存与磁盘的自动切换；

容错的弹性：数据丢失可以自动恢复；

计算的弹性：计算出错重试机制；

分片的弹性：可根据需要重新分片。

分布式：数据存储在大数据集群不同节点上 ➢ 数据集：RDD 封装了计算逻辑，并不保存数据

数据抽象：RDD 是一个抽象类，需要子类具体实现

不可变：RDD 封装了计算逻辑，是不可以改变的，想要改变，只能产生新的 RDD，在新的 RDD 里面封装计算逻辑

可分区、并行计算

二.RDD的特性：

分区列表：一个 RDD 由一个或者多个分区（Partitions）组成。对于 RDD 来说，每个分区会被一个计算任务所处理，用户可以在创建 RDD 时指定其分区个数，如果没有指定，则默认采用程序所分配到的 CPU 的核心数；

分区计算函数：RDD 拥有一个用于计算分区的函数 compute；

依赖关系：RDD 会保存彼此间的依赖关系，RDD 的每次转换都会生成一个新的依赖关系，这种 RDD 之间的依赖关系就像流水线一样。在部分分区数据丢失后，可以通过这种依赖关系重新计算丢失的分区数据，而不是对 RDD 的所有分区进行重新计算；

窄依赖和宽依赖

由于RDD存在父子依赖关系，在RDD间进行转换的分区对应关系也不同，分为两种类型：窄依赖和宽依赖

窄依赖：父RDD的一个分区，在RDD转换过程中，最多被一个子RDD的分区使用。

宽依赖：父RDD的一个分区，在RDD转换过程中，会被多个子RDD的分区使用。

分区器：Key-Value 型的 RDD 还拥有 Partitioner(分区器)，用于决定数据被存储在哪个分区中，目前 Spark 中支持 HashPartitioner(按照哈希分区) 和 RangeParationer(按照范围进行分区)；

首选位置：一个优先位置列表 (可选)，用于存储每个分区的优先位置 (prefered location)。对于一个 HDFS 文件来说，这个列表保存的就是每个分区所在的块的位置，按照“移动数据不如移动计算“的理念，Spark 在进行任务调度的时候，会尽可能的将计算任务分配到其所要处理数据块的存储位置。

三.执行原理：

从计算的角度来讲，数据处理过程中需要计算资源（内存 & CPU）和计算模型（逻辑）。执行时，需要将计算资源和计算模型进行协调和整合。 Spark 框架在执行时，先申请资源，然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上, 按照指定的计算模型进行数据计算。最后得到计算结果。 RDD 是 Spark 框架中用于数据处理的核心模型，接下来我们看看，在 Yarn 环境中，RDD 的工作原理: