- 博客(8)
- 收藏
- 关注
原创 hive数据排序
distribute by类似MR中partition(自定义分区),进行分区,结合sort by使用。Sort By:对于大规模的数据集order by的效率非常低。1. distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后,余数相同的分到一个区。对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。当distribute by和sorts by字段相同时,可以使用cluster by方式。
2024-05-26 00:15:47
415
原创 hive内置函数
- explode常与 lateral view 函数联用,这两个函数结合在一起能。split,注意 '.' 要加\\转义。码出这个lateral view的过程。关联成功,蓝色是拆分后的,红色是原数据。输入是一行,输出是一列。
2024-05-23 22:16:44
1036
1
原创 hive SELECT语句
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据。ORDER BY与SORT BY的不同:ORDER BY 全局排序,只有一个Reduce任务;
2024-05-21 21:27:15
488
原创 hive分区与分桶
通过分区,可以将数据按照特定的维度进行组织,提高查询效率和数据管理的灵活性。通过分桶,可以将数据均匀地分布到不同的桶中,提高查询的并行度和性能。上述示例中,将数据插入到my_table表的dt='2023-01-01'、country='China'的分区中。提高查询性能:通过分区,可以将数据按照特定的列值进行划分,使得查询只需要扫描特定分区的数据,减少了全表扫描的开销。提高查询性能:通过分桶,可以将数据均匀地分布到不同的桶中,使得查询可以并行地处理不同的桶,提高查询性能。
2024-05-21 21:19:06
843
原创 hive数据库及表操作
上述数据类型都是对Java中的接口的实现,所以类型的具体行为细节和Java中对应的类型完全一致。比如STRING类型实现的是Java中的String,FLOAT类型实现的是。:FLOAT、DOUBLE、DECIMAL文本:STRÍNG、CHAR、VARCHAR布尔。Hive中的基本数据类型也称为原始类型,包括整数、小数、文本、布尔、二进制以及时间类型。Java中的float。
2024-04-07 08:49:13
176
原创 Hive数据存储模型
外部表指向已经存在HDFS中的数据,与内部表元数据组织是相同的,但其数据存放位置是任意的。外部表的真实数据不被Hive管理,即当删除一张内部表时,元数据以及HDFS上的真实数据均被删除,而删除外部表则只会删除元数据而不会删除真实数据。Hive 中的数据分为真实数据与元数据,一般来说Hive的存储格式是指真实数据的Hive 常用的存储格式包括以下4种:TEXTFILE、SEQUENCEFILE、RCFILE和ORCFILE。为了有效地对真实数据进行管理,根据粒度大小,Hive 将真实数据划分为如下数据单元。
2024-03-14 22:39:42
1873
原创 了解Hive基础
Hive是基于Hadoop的一个数据仓库工具,它提供了以SQL语言为基础的数据处理和存储能力。Hive的目的是为了简化大数据的处理和分析过程,将结构化的数据转换成Hadoop上的。Hive的底层技术是基于Hadoop的HDFS和,通过这些技术,Hive能够实现数据查询、统计和分析等功能。
2024-03-14 22:30:56
1452
原创 数据仓库概述
数据仓库是一种面向商务智能 (BI) 活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。在实际应用中,数据仓库中的数据一般来自应用日志文件和事务应用等广泛来源。数据仓库能够集中、整合多个来源的大量数据,借助数据仓库的分析功能,企业可从数据中获得宝贵的业务洞察,改善决策。同时,随着时间推移,它还会建立一个对于数据科学家和业务分析人员极具价值的历史记录。得益于这些强大的功能,数据仓库可为企业提供一个“单一信息源”。
2024-03-03 14:02:19
1587
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人