Hive之分区表
文章目录
- Hive之分区表
-
- 写在前面
- 分区表
-
- 分区表基本操作
-
- 引入分区表
- 创建分区表语法
- 加载数据到分区表中
- 查询分区表中数据
- 增加分区
- 删除分区
- 查看分区表有多少分区
- 查看分区表结构
- 二级分区
-
- 正常的加载数据
- 分区表和数据产生关联
- 动态分区
-
- 开启动态分区参数设置
- 案例实操
写在前面
- Linux版本:
CentOS7.5
- Hive版本:
Hive-3.1.2
分区表
分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择查询所需要的指定的分区,这样的查询效率会提高很多。
分区表基本操作
引入分区表
需要根据日期对日志进行管理, 通过部门信息模拟
dept_20200401.log
dept_20200402.log
dept_20200403.log
……
创建分区表语法
hive (default)> create table dept_partition(
deptno int, dname string, loc string
)
partitioned by (day string)
row format delimited fields terminated by '\t';
注意:分区字段不能是表中已经存在的数据,可以将分区字段看作表的伪列。
加载数据到分区表中
(1)数据准备
dept_20200401.log
10 ACCOUNTING 1700
20 RESEARCH 1800
dept_20200402.log
30 SALES 1900
40 OPERATIONS 1700
dept_20200403.log
50 TEST 2000
60 DEV 1900
(2)加载数据
hive (default)> load data local inpath '/export/server/hive-3.1.2/datas/dept_20200401.log' into table dept_partition partition(day='20200401');
hive (default)> load data local inpath '/export/server/hive-3.1.2/datas/dept_20200402.log' into table dept_partition partition(day='20200402');
hive (default)> load data local inpath '/export/server/hive-3.1.2/datas/dept_20200403.log' into table dept_partition partition(day='20200403');
注意:分区表加载数据时,必须指定分区
- HDFS Web段查看分区
- Hive查询分区
查询分区表中数据
- 单分区查询
hive (default)> select * from dept_partition where day='20200401';
- 多分区联合查询
hive (default)> select * from dept_partition where day='20200401'
union
select