Hive SQL作业执行慢，怎么解决

最新推荐文章于 2025-07-14 14:57:31 发布

原创最新推荐文章于 2025-07-14 14:57:31 发布 · 1.3k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#hive #sql #hadoop

本文讨论了大数据处理中遇到的问题，如SQL逻辑优化、分区技术、减少小文件影响、处理数据倾斜、mapjoin优化、NULL值处理以及两阶段聚合策略，以提升大数据查询性能和效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1，数据量大

建议核查SQL逻辑，限制分区，过滤冗余数据，拆解任务分批次执行。

参数设置对大数据量进行分区裁剪、列裁剪、谓词下推

2，小文件多

小文件过多造成执行过程中的拉取文件的大量随机读，带来任务延迟。

3，数据倾斜

1，可以舍弃热点数据，稀疏的key数据与密集的key数据分开计算，避免木桶效应，拖长任务执行时长。

2，mapjoin实现广播的小表链接大表，来提升链接的效率。例如：select /*+ MAPJOIN(a) */

3，大表热点数据在key上拼接0～n的前缀/后缀，同时小表冗余扩大n倍数据，保证join到对应键值，然后去掉前缀/后缀。

4，a left join b 可以转换为：b left join a 加 union，基于维度对指标进行聚合函数封装。

5，谨慎使用笛卡尔积：需要过滤链接条件中的NULL值：解决方法1：NULL不参与关联，解决方法2：给空值分配随机的key值

6，两阶段聚合（局部聚合+全局聚合）

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

嘚瑟_

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

数仓|Hive性能调优指北

jmx_bigdata的博客

06-07

1113

在企业中使用Hive构建离线数仓是一种十分普遍的方案。尽管Hive的使用场景是通过批处理的方式处理大数据，通常对处理时间不敏感。但是在资源有限的情况下，我们需要关注Hive的性能调优，从而方便数据的快速产出。同时，关于Hive的性能调优，也是面试中比较常见的问题，因此掌握Hive性能调优的一些方法，不仅能够在工作中提升效率而且还可以在面试中脱颖而出。本文会通过四个方面介绍Hive性能调优，主要包括： √性能调优的工具 √设计优化 √数据存储优化 √作业优化性能调优的工具 HQL提供了两个查看查询性能.

聊一聊hive sql 执行计划

data_man_online的博客

07-31

1294

●keyexpressions/valueexpressionsMapReduce计算引擎，在Map阶段和Reduce阶段输出的都是键-值对的形式，这里keyexpression和valueexpressions分别描述的就是Map阶段输出的键（key）和值（value）所用的数据列。为什么会出现这种情况？向量化模式是Hive的一个特性，在没有引入向量化的执行模式之前，一般的查询操作一次只处理一行，在向量化查询执行时通过一次处理1024行的块来简化系统底层操作，提高了数据的处理性能。......

参与评论您还未登录，请先登录后发表或查看评论

Hive Server 运行 SQL 慢排查手册

houzhizhen的专栏

06-10

2727

对于分布式系统, 任何地方出问题都有可能导致任务运行慢。本手册仅排查通过 Hive Server 执行 SQL 任务。通过 Hive Server 运行 SQL 主要设计 4 个部分，分别是 MYSQL 数据库、 Hive Metastore、Hive Server 和客户端。每个部分都可能对性能造成影响。MYSQL 数据库: 存储 Hive 的元信息，如表有哪些字段，只有一个 MYSQL 数据库。 Hive Metastore：通过 api 接口对 Hive Server 提供元信息服务。多个 Hive

一条Hive SQL作业执行慢该怎么办

最新发布

cda2024的博客

07-14

312

面对Hive SQL作业执行慢的问题，我们需要从多个角度进行分析和优化。其次，优化查询本身，选择合适的文件格式，减少不必要的列选择；你是否曾遇到过这样的情况：一条看似简单的Hive SQL查询，却拖拖拉拉地执行了几个小时，甚至一整天？这种情况下，你的耐心被消磨殆尽，项目进度也受到影响。通过系统的学习，你可以掌握更多优化Hive SQL的技巧，提高工作效率。如果你想深入了解数据分析领域的更多知识，欢迎关注CDA数据分析师，一起探索数据的魅力。有时我们会遇到非常复杂的查询，涉及多个表的多层嵌套子查询。

hive sql子查询缓慢

花言简

12-03

1951

hive sql joiner执行慢

weixin_41362014的博客

06-28

122

优化Hive SQL Joiner执行慢的方法引言作为一名经验丰富的开发者，经常会遇到优化Hive SQL Joiner执行慢的问题。在这篇文章中，我将向你解释如何优化Hive SQL Joiner执行慢的问题，帮助你更好地理解和解决这个挑战。流程概述首先，让我们来看一下整个优化过程的流程。下表展示了优化Hive ...

Hive SQL语句操作

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

06-25

2472

本实验任务主要完成基于Hive环境执行一些常用的Hive SQL语句操作，通过完成本实验任务，要求学生熟练掌握Hive SQL的常用语句，掌握Hive的基础和操作。掌握Hive的数据类型掌握hive的数据类型的使用掌握hive的DDL语句的操作本次环境是：Ubuntu16.04+hadoop-2.7.3.+apache-hive-1.2.2-bin数据量巨大且保存时间长；在大量数据上进行复杂的批量运算；数据在计算之前已经完全到位，不会发生变化；能够方便的查询批量计算的结果；不像在线计算当

Hive SQL语法总结

01-20

Hive将SQL语句转换为MapReduce任务，使其适合处理大规模数据集的批处理作业，而不是实时查询或行级更新。创建数据库是Hive操作的基础，你可以使用`CREATE DATABASE`命令来创建新的数据库。例如，`CREATE DATABASE ...

Hive SQL底层执行过程详细剖析

m0_57468722的博客

10-31

351

Hive是什么？Hive 是数据仓库工具，再具体点就是一个 SQL 解析引擎，因为它即不负责存储数据，也不负责计算数据，只负责解析 SQL，记录元数据。 Hive直接访问存储在 HDFS 中或者 HBase 中的文件，通过 MapReduce、Spark 或 Tez 执行查询。我们今天来聊的就是 Hive 底层是怎样将我们写的 SQL 转化为 MapReduce 等计算引擎可识别的程序。了解 Hive SQL 的底层编译过程有利于我们优化Hive SQL，提升我们对Hive的掌控力，同时有能力

【Hive】5-HiveSQL 数据查询语言（DQL）

qq_45917176的博客

10-19

1141

HiveSQL 数据查询语言（DQL）

深入浅出数据仓库中SQL性能优化之Hive篇

07-02

Hive查询生成多个map reduce job，一个map reduce job又有map，reduce，spill，shuffle， sort等多个阶段，所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化，针对MR全局的优化以及针对整个查询的优化。

【问题记录】hiveserver2 提交SQL任务慢原因排查

ChengYanan的博客

05-15

734

同样一个SQL，在hive cli执行，提交了SQL之后立马就会提交到Yarn上，但是通过hiveserver2 提交，就会经过很长一段时间才会提交到Yarn上，甚至有时候直接报错time out。

惊!-hive on spark(hive任务)任务慢---竟然有这些原因！

weixin_45912745的博客

08-06

2293

hive性能慢的排查过程，hive on spark 任务慢

hiveSQL任务执行时间过长

amberwest

12-13

3706

在周例会上，发现自己经手过的任务运行时间在忙时长达两个多小时（公开处刑），这里总结下工作中遇到的一些造成任务执行效率低的原因： 1、数据量过大比如有分区表，但是多表关联查询的时候没有指定分区，导致全表扫描。（注意on跟where的条） 2、产生笛卡尔积优化 3、访问API过多有些任务可能涉及到访问外部接口，过多的请求影响到任务执行效率。从业务或者其他方面优化 4、从接口层取数前期的数仓设计不合理或者临时性取数，应用层的数据直接从接口层取数。需要优化模型设计，从接口层到中间层/轻度汇总

hive 慢sql 查询

Kafka_yx的博客

04-03

938

解析日志获取执行时间执行 OperationId 执行人 UserName=root 执行sql 数据分隔符为 \001 并写入 hivesql.txt。比如：/var/log/Bigdata/audit/hive/hiveserver/hive-audit.log。查找 hive 执行日志存储路径（一般是 hive-audit.log ）上传相关解析日志到hive。hive 慢sql 查询。

Hive查询慢的那点事

weixin_44953126的博客

11-03

6166

当你用jdbc对HiveServer2做一些查询的时候，有时候会遇到一些延时，为了查找原因，我们可以收集jstack dump日志，它可以把Hiveserver2进程的所有线程的callstack打印出来提供你分析，那么如何分析jstack日志呢？ 1,一般情况下如果callstack发现有org.apache.thrift.server.TServlet.doPost function,那么就可...

hivesever2编译sql慢问题处理

sunxunyong的博客

10-14

1092

hive.metastore.event.listeners org.apache.hive.hcatalog.listener.DbNotificationListener --删掉。使用在线工具分析： https://spotify.github.io/threaddump-analyzer/hive.metastore.transactional.event.listeners 空值 --删掉。hive客户端是直接连hivemetastore查询，说明hivemetastore正常。

hive mysql慢查询_Hive查询OOM分析

weixin_36338946的博客

03-04

402

Hive的某个查询突然报OutOfMemoryError：hive> select upstream_addr from lb_log where> domain_name='xxxxx' and host='xxxxxx' and dt=121117 and hour=20 limit 10;Exception in thread "main" java.lang.OutOfMemo...

hive复杂sql执行慢

02-26

### Hive中复杂SQL查询的优化策略 #### 使用`EXPLAIN`和`EXPLAIN EXTENDED` 对于复杂或执行效率低下的查询，可以在查询语句前加上`EXPLAIN`或`EXPLAIN EXTENDED`关键字。这会使查询不被执行，而是返回Hive计划如何执行该查询的信息。通过这种方式，可以理解查询被分解成了哪些阶段(stage)，从而找到可能存在的性能瓶颈并加以改进[^4]。 ```sql EXPLAIN EXTENDED SELECT * FROM table_name WHERE condition; ``` #### 调整配置参数有许多可调优的参数能够影响到Hive作业的表现。适当调整这些参数能够在很大程度上改善SQL执行的速度。例如： - `set hive.exec.parallel=true;`: 启用并发执行模式来加速多表连接操作。 - `set mapreduce.job.reduces=NUM;`: 明确指定Reduce任务的数量以控制输出文件大小以及减少Shuffle过程中的数据传输量。 - `set hive.vectorized.execution.enabled=true;`: 开启向量化执行引擎加快聚合运算等场景下数据处理速率。以上只是部分可供调节的关键选项，具体还需要依据实际应用场景灵活设定[^2]。 #### 处理数据倾斜问题当遇到因键分布极不平衡引起的数据倾斜状况时，应该采取措施缓解这一现象带来的负面影响。一种常见做法是在Join之前引入随机数作为辅助字段打散热点Key，之后再做关联计算；另外也可以考虑重构业务逻辑使输入源更加均匀化，以此达到规避严重偏斜的目的[^3]。 #### 减少不必要的I/O开销尽可能地利用分区(Partitioning)特性按需读取特定范围内的记录而非全表扫描；同时合理规划桶(Bucketing)结构让相同特征值聚集存储以便于后续高效访问。此外，压缩算法的选择同样不容忽视——采用合适的编码方式能有效降低磁盘占用空间进而间接促进整体流程顺畅度。 ```sql -- 创建带分区的表 CREATE TABLE partitioned_table ( col1 STRING, ... ) PARTITIONED BY (year INT, month INT); -- 插入数据至相应分区 INSERT INTO partitioned_table PARTITION(year='2023',month='7') VALUES (...); ```