HIVE使用优化总结

Hive使用优化策略详解

最新推荐文章于 2023-05-08 10:23:04 发布

原创

最新推荐文章于 2023-05-08 10:23:04 发布 · 299 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文总结了Hive使用中的关键优化点，包括调整splitsize以优化切片大小，解决小文件问题的输入和输出合并策略，以及Shuffle过程的优化。了解这些设置对于提升Hive查询效率至关重要。

Hive使用注意点

（1）尽量尽早地过滤数据，减少每个阶段的数据量，对于分区表加上分区判断过滤不需要处理的数据。
（2）分区表关联在on条件上加上分区判断，否则会扫全表。
（3）避免一个SQL包含复杂逻辑，可以借助中间表来完成复杂的逻辑。
（4）建议使用外部表，防止误删表时删除数据；对于中间表可使用内部表的方式。

splitsize大小--切片大小（ mapred.max.split.size 和mapred.min.split.size ）

-->调大map个数(128MB~512MB/Task)
调小mapred.max.split.size
-->调小map个数
调大mapred.max.split.size

-->在未指定reduce个数的情况下，计算公式如下：
reducers = Math.min(maxReducers, totalInputFileSize/bytesPerReducer)
maxReducers由参数hive.exec.reducers.max设置，默认999

bytesPerReducer由参数hive.exec.reducers.bytes.per.reducer 设置，默认1G

调整reduce个数(建议值 512MB~1GB/Task)
通过mapred.reduce.tasks或mapreduce.job.reduces设置

小文件合并——输入合并(输入大量小文件)

set hive.input.format = org.apache.hadoop.hive.ql.io.combinehiveinputformat;
set mapred.max.split.size = 536870912; //512MB
set mapred.min.split.size = 134217728; //128MB

小文件合并——输出合并(hive.merge.size.per.task)

Map-Only任务输出

最低0.47元/天解锁文章

新学期VIP享超值加赠

不管大小写

博客等级

码龄7年

39
原创

20
点赞

127
收藏

16
粉丝

关注

私信

热门文章

分类专栏

spark 11篇
storm 1篇
hbase 1篇
kafka 3篇
hive 5篇
Druid
Linux
Scala 10篇
hadoop 1篇
java 2篇
flink
other
mysql 2篇
生活杂记
ElasticSearch 1篇
wiki 1篇
编码
python 15篇

展开全部收起

上一篇：: SCALA 基础操作篇7

下一篇：: HIVE基础表操作

最新评论

python 类的getter&setter
Tasi: [code=objc] 23333 [/code]
kafka API操作topic
不管大小写回复 weixin_37964953: 查询topic信息你可以得到TopicDescription，它的方法及返回你可以参考 http://kafka.apache.org/21/javadoc/index.html?org/apache/kafka/clients/admin/AdminClient.html 中的 partitions() 方法，得到一个 TopicPartitionInfo http://kafka.apache.org/21/javadoc/org/apache/kafka/common/TopicPartitionInfo.html 中可参考TopicPartitionInfo 的具体信息获得，已经是最明细的了
kafka API操作topic
weixin_37964953: 你好这个能获取kafka主题的分区集合吗?具体怎么写呢
Hive使用常见问题
不管大小写回复 sheep8521: 不知道你的具体情况，如果不是全局变量，可以放在局部代码块前，做临时变量就好了
Hive使用常见问题
sheep8521: 楼主你，你好我想问下我把这个参数hive.variable.substitute.depth调节得很大了还是于这个问题呢？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。