
spark读书笔记
9随遇而安
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
RDD宽依赖、窄依赖&DAG
窄依赖:每个父RDD中的partition最多被子RDD中的一个Partition所使用; (1)父RDD与子RDD是一对一的依赖关系(OneToOneDependency):map、filter、join with inputs co-partitioned; 注:子RDD只依赖父RDD中相同partitionID的partition (2)父RDD与子RDD是一对一的范围内依赖关系(Range...原创 2019-07-25 22:36:30 · 604 阅读 · 0 评论 -
spark算子调优
1、mapPartitions代替map:map的输入变换函数应用于RDD中的每个元素,mapPartitions的输入函数应用每个分区。 eg:RDD的数据(10个元素,3个分区)通过JDBC连接写入数据库,map要做10次jdbc连接,mapPartitions只要三次 2、repartition=coalesce(true) 3、RDD使用filter如果partition...原创 2019-08-01 09:48:03 · 203 阅读 · 0 评论 -
spark内存调优
executor内存 1、RDD存储:persist、cache操作,RDD持久化在executor中 注:UnifiedMemoryManager模式可设置spark.storage.memoryFraction调节,默认0.6 2、shuffle操作:缓冲区存储shuffle的输出和聚合的中间结果 注:UnifiedMemoryManager模式可设置spark.shuffle.mem...原创 2019-08-06 21:42:14 · 263 阅读 · 0 评论