Spark_GawynKing的博客-CSDN博客

Spark

关注

文章平均质量分 86

欢迎来到 Spark 专栏，这里是深度解析 Apache Spark 框架的专业平台。我们将分享 Spark 的最新技术动态、实际应用经验和性能优化技巧。无论您是大数据领域的专业从业者，还是对 Spark 感兴趣的初学者，这个专栏都将为您提供清晰、深入的教程和实用建议。通过关注 Spark 专栏，与

关注数：文章数：5 文章阅读量：5602 文章收藏量：72

作者: GawynKing

约定大于配置;配置大于设计;设计大于定制.

展开

专栏收录文章

Hive/SparkSQL自定义变量使用方法介绍

一创建测试表。

原创 2024-09-11 11:32:49 · 956 阅读 · 0 评论
Spark数据倾斜解决方案

数据倾斜场景千千万，这里列举常见的一些数据倾斜场景进行简单的描述，更多示例，后续更新。

原创 2024-03-31 00:46:50 · 1676 阅读 · 0 评论
Spark核心算子

通过外壳命令（例如Perl或bash脚本）通过管道传递RDD的每个分区。将RDD元素写入进程的stdin，并将输出到其stdout的行作为字符串的RDD返回。返回带有数据集num个元素的随机样本的数组，带有或不带有替换，可以选择预先指定一个随机数生成器种子。

原创 2024-04-06 20:58:20 · 868 阅读 · 0 评论
Spark源码之RPC通信机制

在Spark的分布式计算环境中，通信机制扮演着连接各个节点和协调任务执行的关键角色。学习Spark通信机制不仅仅是为了理解框架内部的工作原理，更是为了有效地利用其强大的分布式计算能力。首先，通信机制直接影响着数据在集群中的传输效率。了解数据的传输路径、网络拓扑和数据分区策略，有助于优化数据移动过程，提高任务执行的速度。其次，学习通信机制有助于理解Spark作业中的Shuffle过程。Shuffle是Spark中的一个关键操作，涉及数据的重新分区和重新组织，通信机制在此过程中发挥着至关重要的作用。

原创 2024-03-07 15:14:57 · 968 阅读 · 0 评论
Spark源码之Spark on Yarn运行时架构

在当今大数据时代，数据处理和分析已成为各行各业的核心任务之一。为了有效地处理海量数据并实现高性能的分布式计算，Apache Spark作为一款强大而灵活的开源框架崭露头角。Spark的成功不仅源于其卓越的性能和易用性，更在于其开放源代码的本质，为研究者、工程师和开发者提供了深入学习的机会。Spark源码的学习可谓是解锁这一分布式计算框架内在奥秘的关键之一。理解Spark的底层实现细节，深入研究其核心组件和算法，不仅有助于更好地利用Spark提供的丰富功能，还能为解决实际业务问题提供定制化的解决方案。

原创 2024-03-06 02:39:14 · 1134 阅读 · 0 评论

Spark

作者: GawynKing

Hive/SparkSQL自定义变量使用方法介绍

Spark数据倾斜解决方案

Spark核心算子

Spark源码之RPC通信机制

Spark源码之Spark on Yarn运行时架构