
spark
文章平均质量分 80
wangqiaowqo
我思故我在,欢迎大家来访!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark学习一
spark学习一1、参考文档OSTC2015-张安站-Spark技术内幕http://share.csdn.net/slides/13506使用IDEA开发Spark应用http://debugo.com/idea-spark/Apache Spark学习:利用Eclipse构建Spark集成开发环境http://dongxicheng.org/framework-on...原创 2015-07-21 16:54:38 · 559 阅读 · 0 评论 -
spark-mllib-TFIDF实现
spark-mllib-TFIDF实现http://blog.csdn.net/xiao_jun_0820/article/details/49277869原创 2016-02-04 11:00:37 · 168 阅读 · 0 评论 -
Spark SQL学习
Spark SQL编程指南(Python)http://www.cnblogs.com/yurunmiao/p/4685310.html绍Spark SQL的Register Function,也就是说可以动态创建函数用于SQL查询,其实际作用类似于Hive UDF。Spark SQL为我们提供了强大的数据分析能力,主要体现在以下三个方面: (1)Spark RDD可以...原创 2015-12-18 13:47:22 · 112 阅读 · 0 评论 -
spark异常汇总
spark异常汇总1、输出目录已存在[code="java"] diagnostics: Application application_1444384383185_2518 failed 2 times due to AM Container for appattempt_1444384383185_2518_000002 exited with exitCode: 15 ...原创 2015-11-16 16:29:29 · 341 阅读 · 0 评论 -
sparkSQL学习
参考:spark官方中文文档1、综述 1.1版本 Spark SQL允许在Spark中执行使用SQL,HiveQL或Scala表示的关系型查询。核心组件为一个新类型的RDD--SchemaRDD。SchemaRDDs由行对象以及用来描述每行中各列数据类型的模式组成。每个SchemaRDD类似于关系型数据库中的一个表。SchemaRDD的创建可以来自于已存在的RDD或Parquet文件...原创 2015-11-09 15:54:47 · 125 阅读 · 0 评论 -
spark学习笔记二
spark官方中文文档(spark亚太研究院联合出品)读书笔记1、RDD操作 http://www.tuicool.com/articles/ZfeQrq7 RDD支持两种操作: 转换(transformations),可以从已有的数据集创建一个新的数据集; 动作(actions),在数据集上运行计算后,会向驱动程序返回一个值。 map 就是一个转换,它讲数据集每一个元...原创 2015-10-30 12:17:28 · 111 阅读 · 0 评论 -
spark学习连接
Spark SQL结构化数据分析http://www.aboutyun.com/thread-14481-1-1.htmlSpark 1.3.0版中 DataFrame 实践http://www.aboutyun.com/thread-12312-1-3.html怎样利用Spark Streaming和Hadoop实现近实时的会话连接http://www.aboutyu...原创 2015-10-28 17:56:46 · 103 阅读 · 0 评论 -
spark运行及开发环境搭建
一、Linux下spark运行环境搭建http://wenku.baidu.com/link?url=V14fWw5C3vp2G7YhTApqknz_EKwowBGP8lL_TvSbXa8PN2vASVAHUSouK7p0Pu14h3IBf8zmdfPUNUT-2Hr-cnDUzivYJKupgWnEkbHTY8i参考http://wenku.baidu.com/link?url=...原创 2015-09-29 12:04:28 · 413 阅读 · 0 评论 -
Spark参数调优
参考https://www.zybuluo.com/xiaop1987/note/102894在一个 Spark 应用中,每个 Spark executor 拥有固定个数的 core 以及固定大小的堆大小。core 的个数可以在执行 spark-submit 或者 pyspark 或者 spark-shell 时,通过参数 --executor-cores 指定,或者在 spark-d...原创 2016-06-20 10:58:09 · 148 阅读 · 0 评论 -
Spark + ansj 对大数据量中文进行分词
1、参考http://www.open-open.com/lib/view/1432542541707Spark + ansj 对大数据量中文进行分词原创 2016-03-02 10:31:04 · 235 阅读 · 0 评论