没有合适的资源?快使用搜索试试~ 我知道了~
我们谈大数据性能调优,到底在谈什么,它的本质是什么,以及 Spark 在性能调优部份的要点,这两点让在进入性能调优之前都是一个至关重要的问题,它的本质限制了我们调优到底要达到一个什么样的目标或者说我们是从什么本源上进行调优。希望这篇文章能为读者带出以下的启发: 了解大数据性能调优的本质 了解 Spark 性能调优要点分析 了解 Spark 在资源优化上的一些参数调优 了解 Spark 的一些比较高效的 RDD 操作算子
资源推荐
资源详情
资源评论














格式:pptx 资源大小:38.8MB 页数:113














Spark调优经验分享
2017.4.28
DM Team
徐闻春

一图概览
目的:
• 提高硬件资源利用率
• 减少网络传输开销
• 提高资源复用率

Spark集群优化——数据本地性
sql locality情况 执行时间(s)
Node local Rack local Any
sql1 214 232 0 140.2
326 122 0 26.4
sql6 52067 1492 635 139
49456 1392 142 41
49998 1380 53 36
数据本地性越好,数据网络传输越少,计算也就越快,所以要尽量避免数据跨节点和跨机架传输
数据locality相关参数:
• spark.locality.wait.process 默认3s
• spark.locality.wait.node 默认3s
• spark.locality.wait.rack 默认3s

Spark集群优化——存储格式选择
格式 读取数据量(KB) 存储大小(byte) 查询时间(s)
sql
-10 text 1167.5 1164841 10.5
orc 1028.3 572035 10.9
parquet 1083 1093378 10.7
sql
-11
text 41.7 42687 7.8
orc 33.1 25841 4.3
parquet 21.7 45112 4.9
从测试结果来看,orc格式相对text和parquet格式在存储大小和查询时间方面都有较好的性能。
相关参数:
spark.sql.hive.convertCTAS 默认false
spark.sql.sources.default 默认parquet
剩余20页未读,继续阅读
资源评论


licoderli
- 粉丝: 19
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈



安全验证
文档复制为VIP权益,开通VIP直接复制
