[hive]hive工作原理（未完）

胖胖学编程

已于 2022-03-29 16:52:06 修改

阅读量486

点赞数

CC 4.0 BY-SA版权

分类专栏： hive 文章标签： hive

于 2022-03-23 17:22:51 首次发布

本文链接：https://blog.csdn.net/qq_35896718/article/details/123688278

hive 专栏收录该内容

55 篇文章

订阅专栏

本文深入探讨了Hive的工作原理，从SQL语句的解析开始，通过ANTLR生成抽象语法树，再到语义分析、元数据绑定和检查，最后形成逻辑执行计划。Hive利用Metastore获取表的元数据，并确保所有聚合函数外的字段出现在GROUP BY子句中。整个过程展示了Hive如何处理大数据计算任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.例子

select dept, sum(salary) from emp group by dept;

考虑下这个东西你自己写会怎么计算：你有一张表在hdfs上，这个表是一张员工表，有几个字段：

id           名称          部门            备注           工资
id:integer，name:varchar，dept:varchar，memo: string，salary：Integer
1,           春日野悠，     总裁办，         暂缺，          1000
2，          春日野穹，      总裁办，         暂缺，         1000
3，          天女目英，      外联部，         无，           2000

这个sql是用来计算各个部门的总工资的。单机做的话，就是按照部门排个序，然后用一个循环单独遍历每个部门的总额，最后一个部门输出一条结果。

2.原理

1.生成抽象逻辑树节点

hive的执行顺序：

AST->逻辑执行计划->优化的逻辑执行计划->物理执行计划->打包提交->分布式执行

antlr是指可以根据输入自动生成语法树并可视化的显示出来的开源语法分析器。

hive sql输入的是一个字符串，Hive需要先把字符串分解成自己明白的结构。hive解析用的是ANTLR，ANTLR是值可以根据输入自动生成语法树的解析器。

ANTLR生成的代码会返回给你ASTNode（AST是抽象语法树的简写），比如select会转化为一个以TOK_SELECT标记为根节点的树，树的叶子节点需要包含projection List子树（dept,count(*)），From子树，Filter子树（上面的例子空缺了）等等。也就是说AST会把一个长字符串转化成树结构,树本身的结构设计取决于你的语法定义,ANTLR会按照你的定义把树排列好.hive会遍历整个树.