HIVE分区,静态分区,动态分区

本文探讨了Hive分区对于提升性能的重要性,并按照数仓的ODS、DWD、DWS和ADS四层结构进行了介绍。重点讲解了静态分区在处理大量数据时的实现方式,通过示例展示了如何避免错误并正确导入数据。同时,介绍了动态分区适用于数据量小的全量导入场景,其灵活性使得分区创建更为便捷。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

为什么要分区

分区可以大大提升hive的性能,这里就要提到数仓的分层

第一层 ODS层

原始数据层,存储原始收集的数据

第二层 DWD层

数仓明细层,里面做的是转换和分析,里面包含部分的数据清洗的过程

第三层DWS层

数仓服务层,对外业务的处理,如维度转代理键、身份证清洗、会员注册来源清晰、字段合并、空值处理、脏数据处理、IP清晰转换等;

第四层ADS层

最终业务层

静态分区

(适合做增量表,数据量大)
建一个user表,里面三个字段,id,name,birth,还有一个sex字段,用来分区,初步的想法是,分成男人和女人

hive> create table user(
    > id string,
    > name string,
    > birth string
    
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值