为什么要分区
分区可以大大提升hive的性能,这里就要提到数仓的分层
第一层 ODS层
原始数据层,存储原始收集的数据
第二层 DWD层
数仓明细层,里面做的是转换和分析,里面包含部分的数据清洗的过程
第三层DWS层
数仓服务层,对外业务的处理,如维度转代理键、身份证清洗、会员注册来源清晰、字段合并、空值处理、脏数据处理、IP清晰转换等;
第四层ADS层
最终业务层
静态分区
(适合做增量表,数据量大)
建一个user表,里面三个字段,id,name,birth,还有一个sex字段,用来分区,初步的想法是,分成男人和女人
hive> create table user(
> id string,
> name string,
> birth string