Hive数据仓库的简单使用

Hive是一个基于Hadoop的数据仓库工具,提供SQL-like查询语言HiveQL进行海量数据处理。它将SQL语句转换为MapReduce任务运行,元数据存储在MySQL,数据存储在HDFS。常见操作包括分区、分桶,以及利用MapReduce实现Join、Group By和Distinct等。Hive适用于离线数据处理,其工作流程涉及解释器、编译器和优化器等多个阶段。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Hive是什么、主要做些什么

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。

SQL–>HiveQL–>MR的语言翻译器

构建在Hadoop上的数据仓库框架,数据计算使用MapReduce,数据存储使用HDFS。
设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据。
Hive 定义了一种类 SQL 查询语言——HQL(类似SQL,但不完全相同)。
通常用于进行离线数据处理(采用MapReduce)

分区、分桶

在这里插入图片描述

分区:按照经常查询的字段做不同的分区,从业务字段角度划分,主要用于查询。如按日志产生的日期列进行分区。

分桶:对列值哈希来组织数据的方式,从纯数据角度划分,主要就是用于抽样,表连接。

Hive的工作流程

Hive的工作方式

各功能块做的工作

hive的元数据信息存储在MySQL,如,数据库相关的元数据表DBS:
在这里插入图片描述
hive的另一部分实际的数据文件,存放在hdfs上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值