自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 RDD源码分析:ClosureCleaner

最近在看spark的源码,发现好多rdd如:map,flatMap,filter等rdd中都有一段相同的代码: val cleanF = sc.clean(f) 当时就很疑惑,为什么都有这段代码,rdd的逻辑又不是一样的,于是,继续往下看,最终找到了ClosureCleaner.clean...

2018-08-30 17:54:00 156

转载 spark action 算子

action算子为执行算子,触发Spark作业的运行,真正触发转换算子的计算 1.reduce(func):通过函数func先聚集各分区的数据集,再聚集分区之间的数据,func接收两个参数,返回一个新值,新值再做为参数继续传递给函数func,直到最后一个元素。 2.collect()...

2018-08-14 14:09:00 233

转载 spark Transformation 转换算子

1、map map是对RDD中的每个元素都执行一个指定的函数(func 传进来的逻辑)处理之后来产生一个新的RDD(注意:不是每个元素产生一个新的RDD,而是一起产生一个新的RDD)。任何原RDD中的元素在新RDD中都有且只有一个元素与之对应,即一一对应。Map传给func 的参数是每个元素...

2018-08-14 14:07:00 188

转载 spark 提交任务详细过程

1、spark submit后都需要action算子来触发作业,观察源码,发现所有的action算子都会调用SparkContext的runJob的方法,以collect为例: collect调用了SparkContext的runJob方法: /** * 返回包含此RDD中所有元素的数组...

2018-08-08 18:31:00 273

转载 hive介绍

1、hive的作用: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Ma...

2017-02-22 19:24:00 218

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除