
大数据
Genebrother
一级码农
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
scala 中样例类的应用场景与定义
样例类1、样例类的特性样例类首先是类,除此之外它是为模式匹配而优化的类,样例类用case关键字进行声明。样例类主要是使用在我们后面的sparkSQL当中,通过样例类来映射我们的表当中的对象。首先,我们来说怎么定义样例类: case class Student(name:Stirng,age:Int,city:Sting) 定义这样的类有以下几个特点:1、样例类默认实现了getter方法,当构造方法的成员变量被var修饰时,会重写setter方法。样例类实现了apply方原创 2021-06-27 11:36:13 · 1006 阅读 · 1 评论 -
[HIVE]中 行转列的相关函数
1、concat 行转列的拼接函数,例如:查询的结果为zhangsa2、concat_ws3、collect_set原创 2021-06-04 13:55:22 · 229 阅读 · 0 评论 -
【Hive】 order by 、sort by 、distribute by 、cluster by 排序详解
【order by 】:全局排序,并且只有在一个reduce 的情况【sort by 】【distribute by 】【cluster by】原创 2021-06-03 20:26:59 · 2056 阅读 · 1 评论 -
cogroup 算子
package sparkcoreimport org.apache.spark.{SparkConf, SparkContext}/*协分组 通group 相同,group 是作用在单个RDD上,对于cogroup ,将2个rdd 进行协分组的时候,返回的rdd 是一个key 为相同的key ,values 为迭代器,第一个迭代器中的内容为key 在rdd1 中的values 的值第二个迭代器中的内容为key 在rdd2 中的values 的值 */object cogroupDem.原创 2021-05-23 15:20:39 · 258 阅读 · 0 评论 -
spark groupBy算子解析
对于groupBy算子,传入的参数是可变的,虽然都是在做分组,groupBy 可以在传入的参数中指定使用k-v中的哪一个值进行分组,使得该算子更加的灵活,特殊的,如果使用k 进行分组,相对于groupByKey,有什么区别???1、在效率上,groupByKey 效率更高,在进行shuffle的过程中,传输的数据量小,那么使得该算子的运行效率更高。2、groupBy的返回是一个带有k和k-v的结构,数据重复冗余。综上:在使用分组算子groupBy和groupByKey中选择的时候,根据K分组的时原创 2021-05-21 01:08:49 · 1045 阅读 · 0 评论 -
groupByKey的聚合原理
原创 2021-05-21 00:39:37 · 233 阅读 · 0 评论 -
kafka 数据积压的2种解决方式
对于kafka的数据积压,需要搞清楚,到底是在哪里数据积压了对于一般的处理,是以下2种处理方式1、增加分区partitions数,但是partition的数量并不是无限增大的,他是有上限的,一般partition的分区数的数不能大于kafka的broker数,因为我做过测试,当分区数大于broker数的时候,会出现无法消费数据的情况 ./kafka-topics.sh –zookeeper hostname:2181 -alter –partitions 待修改的分区数–topic 主题...原创 2021-03-28 00:27:50 · 6841 阅读 · 0 评论