
Spark
孙文旭
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【Spark】性能优化:RDD优化
1、对于RDD中某些函数使用注意(1)能不使用groupByKey函数就不使用,除非不得已redcueByKey(combiner) = groupBy+ map(变量值相加)redcueByKey可以先进行本地聚合操作(2)尽量使用XXPartition函数代替XX函数xx:map/foreach/zipdef foreach(f: T => Unit): Unitf:针对...原创 2019-08-02 21:50:16 · 462 阅读 · 0 评论 -
【Spark】MLlib mark a demo(前言)
人工智能,企业到底是干嘛算法 -函数读论文&实现之工程机器学习工程师(或调参工程师)运行已有算法,训练业务数据,获得工作模型。将数据 ->算法(函数) -> θ的值调用API(调用某个类中的方法) ,调整不同的参数,获取更好的 θ值如何获取算法(函数)中参数的值,最为关键当一个算法中参数已经获取到之后,次数算法(函数)编程模型算法和模型最大的区别:有参数就是...原创 2019-08-09 22:29:08 · 272 阅读 · 0 评论 -
【Spark】MLlib mark a demo(五)
标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列 口碑商家客流量预测第五步使用线性回归(不适用于当前场景)package com.huadian.bigdata.ijcaiimport org.apache.spark.mllib.feature.{StandardScaler, StandardScalerModel}import org.apache.spark.mllib...原创 2019-08-09 22:28:00 · 183 阅读 · 0 评论 -
【Spark】MLlib mark a demo(四)
标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列 口碑商家客流量预测第四步使用随机森林回归算法package com.huadian.bigdata.ijcaiimport org.apache.spark.mllib.feature.{StandardScaler, StandardScalerModel}import org.apache.spark.mllib.linal...原创 2019-08-09 22:26:22 · 311 阅读 · 0 评论 -
【Spark】MLlib mark a demo(三)
标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列 口碑商家客流量预测第三步使用决策树回归算法训练模型,并测试数据package com.huadian.bigdata.ijcaiimport org.apache.spark.mllib.linalg.{Vector, Vectors}import org.apache.spark.mllib.regression.Labe...原创 2019-08-09 22:23:51 · 326 阅读 · 0 评论 -
【Spark】MLlib mark a demo(二)
标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列 口碑商家客流量预测第二步数据整理星期几第几天商家id浏览量购买量星期一11024600342package com.huadian.bigdata.ijcaiimport java.util.Dateimport org.apache.spark.sql.{SaveMode, Spa...原创 2019-08-09 22:21:02 · 215 阅读 · 0 评论 -
【Spark】MLlib mark a demo(一)
标记一个DEMO以便于后面复习DEMO背景阿里天池竞赛系列 口碑商家客流量预测第一步取样获取训练数据package com.huadian.bigdata.ijcaiimport org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringTyp...原创 2019-08-09 22:16:30 · 322 阅读 · 0 评论 -
【Spark】ETL数据到HBase中时优化
创建表的时候设置表的数据压缩创建预分区设置读取表中的数据不缓存 cache blockspark程序的优化存在一个变量eventTypeList是Driver里面,filter是在Executor里面task运行如果RDD有中3个分区,分别在不同的executor中,那么eventTypeList需要存储3份在实际的开发中,一天处理的数据量几十个GB,分区有可能很多,一个数据库对...原创 2019-08-06 21:33:59 · 261 阅读 · 0 评论 -
【Spark】 SparkSession与SparkContext
文章开始先让我们看一张图:从图中我们可以大概看出SparkSession与SparkContext的关系了SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点,来让用户学习spark的各项功能。 在spark的早期版本中,SparkContext是spark的主要切入点,由于RDD是主要的API,我们通过sparkcontext来创建和...原创 2019-08-01 23:37:35 · 12851 阅读 · 0 评论 -
【Spark】 Job-Stage-Task之间的关系
Spark-Job-Stage-Task之间的关系基本概念在开始之前需要先了解Spark中Application,Job,Stage等基本概念,官方给出的解释如下表:TermMeaningApplication用户编写的Spark应用程序,包括一个Driver和多个executorsApplication jar包含用户程序的Jar包Driver Prog...转载 2019-08-02 22:09:30 · 371 阅读 · 0 评论