今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接:
hive从入门到放弃(一)——初识hive
hive从入门到放弃(二)——DDL数据定义
hive从入门到放弃(三)——DML数据操作
分区
分区可以提高查询效率,实际上 hive 的一个分区就是 HDFS 上的一个目录,目录里放着属于该分区的数据文件。
分区的基本操作
创建分区表
create table partition_table(
col1 int,
col2 string
)
partitioned by (part_col string)
row format delimited fields terminated by '\t';
*分区字段不能是表中字段
创建完分区表如果需要将数据导入表中,需要用 load 命令导入;
load data local inpath
'/data_dir/data_file' into table partition_table
partition(part_col='20220331');
如果是在 HDFS 中创建目录并将数据文件传到目录中,是没办法查到的,因为查询分区表是需要查询元数据的;
如果非要用这种方法或者已经做了,可以执行修复命令:msck repair table table_name;
</