Spark之RDD内核原理，MR的原理计算回顾,RDD的洗牌（shuffle）过程，RDD优化之避免shuffle过程

凡梦_leo

于 2024-10-13 20:58:06 发布

阅读量1k

点赞数 20

CC 4.0 BY-SA版权

分类专栏： python 大数据文章标签： spark 大数据分布式 python etl工程师数据库开发数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_55006020/article/details/142832297

学习：知识的初次邂逅

复习：知识的温故知新

练习：知识的实践应用

目录

一，MR的shuffle回顾

1，Map 阶段：

2，Shuffle 阶段：

3，Reduce 阶段：

二，spark的shuffle介绍

1,两种洗牌的方式

2,spark的计算是要尽量避免进入shuffle计算

三，并行度

1，资源并行度

2，数据并行度

一，MR的shuffle回顾

1，Map 阶段：

在 MapReduce 中，Map 阶段的任务是处理输入数据，并将数据转换为键值对的形式。每个 Map 任务会处理一部分输入数据，并生成一系列中间键值对。

例如，对于文本数据的处理，Map 任务可能会将每行文本拆分为单词，并以单词为键，出现次数为值生成键值对。

2，Shuffle 阶段：

Shuffle 阶段是 MapReduce 中连接 Map 阶段和 Reduce 阶段的重要环节。在这个阶段，中间键值对会根据键进行分区、排序和分组，然后被发送到相应的 Reduce 任务进行处理。

分区：Map 任务生成的中间键值对会根据键的哈希值被分配到不同的分区中。每个分区对应一个 Reduce 任务。

排序：在每个分区内，中间键值对会按照键进行排序。这样可以确保相同键的键值对被分配到同一个 Reduce 任务中，并且在 Reduce 任务中可以按照键的顺序进行处理。

分组：排序后的中间键值对会被分组，相同键的键值对会被放在一起。这样可以方便 Reduce 任务对相同键的键值对进行聚合操作。

数据传输：经过分区、排序和分组后的中间键值对会被发送到相应的 Reduce 任务所在的节点上。这个过程通常涉及网络传输，因此可能会成为性能瓶颈。

3，Reduce 阶段：

Reduce 阶段的任务是处理 Shuffle 阶段发送过来的中间键值对，并生成最终的输出结果。

Reduce 任务会对相同键的键值对进行聚合操作，例如求和、求平均值等。然后，将结果写入到输出文件中。

二，spark的shuffle介绍

spark中也有shuffle

当执行宽依赖的算子,就会进行shuffle洗牌阶段

也就是把RDD的数据传递给下一个RDD,进行数据交换

无论是MR还是spark,shuffle的本质都是传递交换数据

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。