
spark
a flying bird
永远飞翔的鸟
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
spark 部分文章收集
spark 部分文章收集原创 2022-06-04 22:14:22 · 432 阅读 · 0 评论 -
spark1.6内存管理
转载:https://www.cnblogs.com/dreamfly2016/p/5720526.htmlSpark从1.6.0版本开始,内存管理模块就发生了改变,旧版本的内存管理模块是实现了StaticMemoryManager类,现在被称为"legacy"。"Legacy"模式默认被置为不可用,这就意味着当你用Spark1.5.x和Spark1.6.x运行相同的代码会有不同的结果,应当...转载 2020-02-15 19:05:04 · 269 阅读 · 0 评论 -
spark job, stage ,task介绍
1. spark 如何执行程序?首先看下spark 的部署图:节点类型有:1. master 节点: 常驻master进程,负责管理全部worker节点。2. worker 节点: 常驻worker进程,负责管理executor 并与master节点通信。dirvier:官方解释为: The process running the main() function o...转载 2020-02-15 16:28:56 · 198 阅读 · 0 评论 -
spark 之RDD操作
转载:https://www.cnblogs.com/nolonely/p/5402698.htmlRDD操作1.对一个数据为{1,2,3,3}的RDD进行基本的RDD转化操作函数名 目的 示例 结果 map() 函数应用于RDD中的每个元素 rdd.map(x=>x+1) {2,3,4,4} flatMap() ...原创 2020-02-15 16:12:45 · 772 阅读 · 0 评论 -
spark WebUI界面指标分析
相关参考:技术|Inceptor任务的图形化分析(一)技术|Inceptor任务的图形化分析(二)技术|Inceptor任务的图形化分析(三)原创 2020-02-15 15:51:18 · 1190 阅读 · 0 评论 -
spark优化参数调节和故障参数调节
spark优化参数调节和故障参数调节转载:https://www.cnblogs.com/zzq-include/p/8933684.html1:“物尽其用”,但给spark分配多个机器后,先需配置spark-submit shell如下:/usr/local/spark/bin/spark-submit \--class com.spark.test.Top3UV \--nu...转载 2020-02-15 15:48:18 · 410 阅读 · 0 评论 -
spark性能调优
Spark性能调优之Shuffle调优转载:https://www.cnblogs.com/haozhengfei/p/5fc4a976a864f33587b094f36b72c7d3.htmlSpark性能调优之Shuffle调优 •Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存...转载 2020-02-15 15:44:55 · 262 阅读 · 0 评论 -
Spark之参数介绍
转载:https://www.jianshu.com/p/9b243c0a74101 spark on yarn常用属性介绍属性名 默认值 属性说明 spark.yarn.am.memory 512m 在客户端模式(client mode)下,yarn应用master使用的内存数。在集群模式(cluster mode)下,使用spark.driver.memor...转载 2020-02-15 11:51:02 · 185 阅读 · 0 评论 -
spark程序调试记录(未完待续)
前序最近闲来无事,记录一下之前学习和使用spark过程中的一些细节,一则用于记录,二则也为他人提供一些参考。原创 2020-02-13 17:16:05 · 771 阅读 · 0 评论 -
spark连接数据库
1.Scala远程连接MongoDB读取数据https://blog.csdn.net/kakaluoteyy/article/details/80267941使用用户名和密码远程连接MongoDB数据库,用Java和Scala连接其实原理相同,都是JDBC,用MongoDB的连接驱动,只是语法上稍有区别而已,而在类、方法的调用上一模一样。在此,分享一下Scala连接Mon...原创 2019-10-15 13:57:55 · 992 阅读 · 1 评论 -
Spark文章记录: Spark - 美团技术团队
1. 删除存在的表drop table if exists table2;2.根据条件创建表create table table2 asSELECT user_id,order_id FROM `default`.`table`where addtime between "20181103" and "20181117"...原创 2020-02-13 21:38:28 · 108 阅读 · 0 评论 -
Spark任务提交方式和执行流程
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行...转载 2020-02-13 21:32:56 · 253 阅读 · 0 评论 -
【spark】分区
RDD是弹性分布式数据集,通常RDD很大,会被分成多个分区,保存在不同节点上。那么分区有什么好处呢?分区能减少节点之间的通信开销,正确的分区能大大加快程序的执行速度。我们看个例子首先我们要了解一个概念,分区并不等同于分块。分块是我们把全部数据切分成好多块来存储叫做分块。如上图b,产生的分块,每个分块都可能含有同样范围的数据。而分区,则是把同样范围的数据分开,如图a...转载 2020-02-13 21:30:48 · 277 阅读 · 0 评论 -
spark实现大矩阵运算
一、MapReduce实现大矩阵相乘二. Spark中分布式矩阵使用原创 2020-02-13 20:48:34 · 3420 阅读 · 0 评论 -
Spark性能优化之道——解决Spark数据倾斜(Data Skew)的N种姿势
原创文章,转载请务必将下面这段话置于文章开头处。本文转发自技术世界,原文链接 http://www.jasongj.com/spark/skew/摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。为何要处理数据倾斜(...转载 2020-02-13 17:06:03 · 283 阅读 · 0 评论 -
Spark从入门到精通[案例实战、高级特性、内核源码、性能调优]学习笔记(未完待续)
Spark从入门到精通[案例实战、高级特性、内核源码、性能调优]部分学习笔记原创 2019-07-28 15:36:49 · 224 阅读 · 0 评论 -
Spark:对数据倾斜的八种处理方法
1. 什么是数据倾斜2. 解决数据倾斜需要3. 导致Spark数据倾斜的本质4. 定位最慢的Task所处的源码位置5. 解决方案方案一:使用Hive ETL预处理方案二:过滤导致倾斜的key方案三:提高Shuffle操作并行度方案四:两阶段聚合(局部聚合+全局聚合)方案五:将reduce join转为map join方案六:采样倾斜key并分拆join操作方案七:用随机前缀和扩容RDD进行join方案八:多种方案组合转载 2019-06-14 07:13:59 · 945 阅读 · 0 评论 -
spark之scala编程笔记
MongoDB on SparkSql的读取和写入操作(Scala版本)1.1 添加依赖需要添加一下依赖:<!-- spark 连接 mongo的连接器 --><dependency> <groupId>org.mongodb.spark</groupId> <artifactId>mongo-spark-...原创 2018-11-10 11:43:55 · 1193 阅读 · 0 评论