- 博客(5)
- 收藏
- 关注
转载 RDD源码分析:ClosureCleaner
最近在看spark的源码,发现好多rdd如:map,flatMap,filter等rdd中都有一段相同的代码: val cleanF = sc.clean(f) 当时就很疑惑,为什么都有这段代码,rdd的逻辑又不是一样的,于是,继续往下看,最终找到了ClosureCleaner.clean...
2018-08-30 17:54:00
156
转载 spark action 算子
action算子为执行算子,触发Spark作业的运行,真正触发转换算子的计算 1.reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到最后一个元素。 2.collect()...
2018-08-14 14:09:00
233
转载 spark Transformation 转换算子
1、map map是对RDD中的每个元素都执行一个指定的函数(func 传进来的逻辑)处理之后来产生一个新的RDD(注意:不是每个元素产生一个新的RDD,而是一起产生一个新的RDD)。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应,即一一对应。Map传给func 的参数是每个元素...
2018-08-14 14:07:00
188
转载 spark 提交任务详细过程
1、spark submit后都需要action算子来触发作业,观察源码,发现所有的action算子都会调用SparkContext的runJob的方法,以collect为例: collect调用了SparkContext的runJob方法: /** * 返回包含此RDD中所有元素的数组...
2018-08-08 18:31:00
273
转载 hive介绍
1、hive的作用: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Ma...
2017-02-22 19:24:00
218
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人