
Hive
文章平均质量分 84
叫我DPT
若有错误与不足请指出,关注DPT一起进步吧!!!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Hive存储与压缩对比(强烈推荐)
默认格式,数据不做压缩,磁盘开销大,数据解析开销大。可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。大数据项目 => ODS、RPT层喜欢采用TEXTFILE,如果引入了Sqoop工具,则两端也可以采用ORC格式。原创 2024-12-22 16:33:38 · 873 阅读 · 0 评论 -
这些MapReduce&YARN高阶原理你都知道吗?
dev的maximum-capacity属性被设置成了75%,所以即使prod队列完全空闲dev也不会占用全部集群资源,也就是说,prod队列仍有25%的可用资源用来应急。逻辑层面引入角色:AppMaster角色(任务管理者),随任务而来随任务而走,运行在NodeManager。在这个配置中,在root队列下面定义了两个子队列prod和dev,分别占40%和60%的容量。下面是一个简单的Capacity调度器的配置文件,文件名为。若有错误与不足请指出,关注DPT一起进步吧!参数进行配置的,默认采用。原创 2024-12-16 22:34:54 · 1063 阅读 · 0 评论 -
Hive高级查询
不论是Hive中的JSON函数还是自带的JSONSerde,都可以实现对于JSON数据的解析,工作中一般根据数据格式以及对应的需求来实现解析。如果数据中每一行只有个别字段是JSON格式字符串,就可以使用JSON函数来实现处理,但是如果数据加载的文件整体就是JSON文件,每一行数据就是一个JSON数据,那么建议直接使用JSONSerde来实现处理最为方便。窗口函数如果在MySQL中使用,必须把MySQL版本升级到8.0以上!原创 2024-12-15 14:24:06 · 1167 阅读 · 0 评论 -
HQL数据查询(DQL)语言
① cte子句with 临时表名 as(select [*/all/distinct] from 数据表 ② where子句 ③ group by子句 ④ having子句 ⑤ order by子句 ⑥ [cluster by 字段 | distribute by 字段 | sort by 字段] ⑦ limit子句;select * from 临时表名;① cte子句 => 类似之前讲过的子查询② where子句③ group by子句④ having子句⑤ order by子句。原创 2024-12-15 11:22:12 · 1317 阅读 · 0 评论 -
Hive——HQL数据定义语言
MySQL => 核心 => SQL语句:DDL :数据定义语言,建库、建表DML :数据操纵语言,增、删、改DQL :数据查询语言,查DCL :数据控制语言,用户与权限控制 => rootHive中的数据类型指的是Hive表中的列字段类型。原生数据类型(primitive data type)和==复杂数据类型数值类型、时间类型、字符串类型、杂项数据类型;array数组、map映射、struct结构、union联合体。关于Hive的数据类型,需要注意:英文字母大小写不敏感;。原创 2024-12-12 22:12:57 · 1657 阅读 · 0 评论 -
初识Hive数仓——超级详细版
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建==面向分析的集成化数据环境,为企业提供决策支持它出于分析性报告和决策支持目的而创建。MySQL数据库 => 面向事务的集成化数据环境;但是DW则是面向分析的集成化数据环境,主要实现数据的写入与数据分析,很少有数据的修改操作!数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。Hive是基于Hadoop。原创 2024-12-09 21:01:47 · 1534 阅读 · 0 评论 -
Yarn中的三个组件
通过这种分工,Hive 查询可以高效地运行在分布式集群上。原创 2024-12-03 16:27:56 · 796 阅读 · 0 评论 -
Shell脚本管理Hive
Shell脚本管理Hive原创 2024-11-27 11:10:08 · 115 阅读 · 0 评论