
Spark
文章平均质量分 86
欢迎来到 Spark 专栏,这里是深度解析 Apache Spark 框架的专业平台。我们将分享 Spark 的最新技术动态、实际应用经验和性能优化技巧。无论您是大数据领域的专业从业者,还是对 Spark 感兴趣的初学者,这个专栏都将为您提供清晰、深入的教程和实用建议。通过关注 Spark 专栏,与
GawynKing
约定大于配置;配置大于设计;设计大于定制.
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive/SparkSQL自定义变量使用方法介绍
一 创建测试表。原创 2024-09-11 11:32:49 · 956 阅读 · 0 评论 -
Spark数据倾斜解决方案
数据倾斜场景千千万,这里列举常见的一些数据倾斜场景进行简单的描述,更多示例,后续更新。原创 2024-03-31 00:46:50 · 1676 阅读 · 0 评论 -
Spark核心算子
通过外壳命令(例如Perl或bash脚本)通过管道传递RDD的每个分区。将RDD元素写入进程的stdin,并将输出到其stdout的行作为字符串的RDD返回。返回带有数据集num个元素的随机样本的数组,带有或不带有替换,可以选择预先指定一个随机数生成器种子。原创 2024-04-06 20:58:20 · 868 阅读 · 0 评论 -
Spark源码之RPC通信机制
在Spark的分布式计算环境中,通信机制扮演着连接各个节点和协调任务执行的关键角色。学习Spark通信机制不仅仅是为了理解框架内部的工作原理,更是为了有效地利用其强大的分布式计算能力。首先,通信机制直接影响着数据在集群中的传输效率。了解数据的传输路径、网络拓扑和数据分区策略,有助于优化数据移动过程,提高任务执行的速度。其次,学习通信机制有助于理解Spark作业中的Shuffle过程。Shuffle是Spark中的一个关键操作,涉及数据的重新分区和重新组织,通信机制在此过程中发挥着至关重要的作用。原创 2024-03-07 15:14:57 · 968 阅读 · 0 评论 -
Spark源码之Spark on Yarn运行时架构
在当今大数据时代,数据处理和分析已成为各行各业的核心任务之一。为了有效地处理海量数据并实现高性能的分布式计算,Apache Spark作为一款强大而灵活的开源框架崭露头角。Spark的成功不仅源于其卓越的性能和易用性,更在于其开放源代码的本质,为研究者、工程师和开发者提供了深入学习的机会。Spark源码的学习可谓是解锁这一分布式计算框架内在奥秘的关键之一。理解Spark的底层实现细节,深入研究其核心组件和算法,不仅有助于更好地利用Spark提供的丰富功能,还能为解决实际业务问题提供定制化的解决方案。原创 2024-03-06 02:39:14 · 1134 阅读 · 0 评论