
hive
文章平均质量分 68
zdkdchao
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
sql-union&union all
2者都是用来把2个结果集进行上下合并的要求2字段的数量和类型要一致。不过在hive中,类型一致的要求没那么严格。原创 2022-11-02 11:39:47 · 460 阅读 · 0 评论 -
hive-join
hive-join原创 2022-09-28 19:03:55 · 442 阅读 · 0 评论 -
hive-面试
hive-面试原创 2022-08-14 11:35:49 · 389 阅读 · 0 评论 -
spark和hive在一些函数上的不同
spark和hive在一些函数上的不同原创 2022-07-29 17:15:13 · 566 阅读 · 0 评论 -
cdh异常
cdh异常原创 2022-07-25 20:28:33 · 554 阅读 · 0 评论 -
hive-函数-reflect
hive-函数-reflect原创 2022-07-25 16:52:43 · 1132 阅读 · 0 评论 -
hive-临时表
hive-临时表原创 2022-07-21 18:07:53 · 1051 阅读 · 0 评论 -
hive-hive -e中的引号文本转义的问题
hive -e 双引号原创 2022-07-19 11:46:52 · 1346 阅读 · 0 评论 -
hive&sql-LEFT JOIN之后,数据量为啥比左表还要少
a表 LEFT JOIN B表,结果表的数据量正常应该是=a表或者>a表。但有种情况,结果表会比a表少。逻辑很简单,就是用两个表同一天的分区数据做关联,但是结果却比 a 表的数据少了。当把唯一一个 “where” 换成 “and” 后,结果便正确了。这个原因其实是过滤数据的对象不同。下面用 MySQL 创建示例来进行说明,只用on,是我们想要的结果还是以左表为准,只是右边只有 dept_id = 2 的数据。所以,LEFT JOIN时,无论ON的条件如何,左表不会被过滤,只会过滤右表。ON仅原创 2022-07-13 12:07:13 · 4469 阅读 · 0 评论 -
hive-函数
其实就是if else,根据表中数据,计算结果,返回一列一般用来转化,转化什么呢?select查出来是一行行的,但有时需要根据将一个维度转化成另一个维度。比如省份列,将山东转成山东省,或者码值。或者改变下维度的层级。比如省份列,将山东转成华北,将山东济南转成济南。.....................................................................原创 2022-06-15 10:49:38 · 2780 阅读 · 0 评论 -
hive-insert
hive insert时遇到的问题原创 2022-06-08 08:43:56 · 2564 阅读 · 0 评论 -
hive-exception-SemanticException [Error 10044]:Table insclause-0 has 3 columns, but query has
hive报错原创 2022-06-06 14:12:00 · 1758 阅读 · 0 评论 -
spark、hive-数据倾斜
spark一、调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能二、数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,原创 2022-04-21 15:35:58 · 767 阅读 · 0 评论 -
hive-动态分区Dynamic Partition
com往分区表插数据时,需要指定分区。这样一次只能插入一个分区。如果插入数据分散在多个分区中,就要通过动态分区功能,自动创建分区并填充。参数配置在使用动态分区之前,我们要进行一些参数的配置.hive.exec.dynamic.partition默认值:false是否开启动态分区功能,默认false关闭。使用动态分区时候,该参数必须设置成true;hive.exec.dynamic.partition.mode默认值:strict动态分区的模式,默认strict,表示必须指定至少一个分区原创 2022-05-19 19:38:42 · 8874 阅读 · 0 评论 -
hive-窗口(分析、OLAP)函数
前置所谓分析,就是复杂到简单,大多数情况,都是多变少。基本思想就是分门别类、多条数据归纳出一条结论。也就是分组和聚合。而group by分组只能根据列,太死板。窗口函数提供了一种灵活、强大的分组方式,配合公用和独有的聚合函数,能实现复杂的逻辑syntax1.作为窗口函数使用的函数有两类:专用窗口函数rank、dense_rank、row_number 聚合函数(sum、avg、count、max、min)2.其中partition by可以省略。窗口函数的partition by子句不是必须的,原创 2022-05-12 18:22:27 · 1808 阅读 · 1 评论 -
hive-行列互转,posexplode、lateral view、concat、collect
行转列正常数据以列分组,group by 后面跟的是列。行是数据,列是维度。如果更换维度,使用拼接的列一行的单元格原来是数据,现在跟其他单元格拼接成为分组依据,先把单元格拼接起来,然后以拼接后的值为维度,拼接后的值就成了列列转行将一单元格中的数据拆分后分散为多行.........原创 2022-04-28 15:34:59 · 8735 阅读 · 0 评论 -
hive-参数-hivevar、hiveconf
hivevar与hiveconf的区别命名空间 使用权限 详细描述hivevar rw 用户自定义变量hiveconf rw hive相关配置属性system rw java定义的配置属性env r Shell环境属性通常我们可以使用hive -e查看有关hivevar与hiveconf的描述:其中–define与hivevar定义变量是一致的。hivevar与hiveconf的作用域之前项目中涉及两个hive作业同时执行并需要传入相同key的参数,因此顾虑不清楚是否是线程安全。结论先行原创 2020-10-30 10:20:45 · 3240 阅读 · 1 评论 -
hive-内部表外部表区别及各自使用场景
一、二、1. 内外部表区别?内部表:加载数据到hive所在的hdfs目录,删除时,元数据和数据文件都删除外部表:不加载数据到hive所在的hdfs目录,删除时,只删除表结构。外部表数据相对来说更加安全些,因为各种前端不会直接提供hdfs的删除接口。同时外部表数据组织也更加灵活,方便共享源数据。2. 内外部表的适用场景?每天采集的ng日志和埋点日志,在存储的时候建议使用外部表,因为日志数据是采集程序实时采集进来的,一旦被误删,恢复起来非常麻烦。而且外部表方便数据的共享。抽取过来的业务数据,其实用原创 2020-09-07 15:02:20 · 4785 阅读 · 0 评论 -
hive-手动清除hive任务的临时数据
https://cloud.tencent.com/developer/article/1363423原创 2020-08-21 11:00:35 · 1130 阅读 · 0 评论 -
hive-排除列
亲测可用https://blog.csdn.net/a308601801/article/details/90436791转载 2020-07-24 17:33:08 · 1227 阅读 · 0 评论 -
hive-java中操作hive的默认分割符\001
使用hive创建一个默认分割符的表,然后打开其hdfs上的数据文件。\001用键盘是无法打出来的,在notepad中显示为SOF。把这个SOF复制到idea中,发现是\u0001。import org.junit.jupiter.api.Test;import java.io.*;public class hive分割符 { @Test public void t1() throws IOException { String str = "C:\\Users\\Ad原创 2020-07-16 16:34:53 · 2321 阅读 · 0 评论 -
hive-将数据直接复制到hive的hdfs上然后通过msck repair table tn来导入数据和分区
一、创建外部表1. partitioned by (etl_date string)必须放在列名括号之后2. location '/user/hive/dctest/test222'必须放在最后create external table test222(id int,name string) partitioned by (etl_date string)row format delimited fields terminated by '|' partitioned by (etl_da原创 2020-06-13 13:47:28 · 770 阅读 · 0 评论 -
hive-parquet
SRCparquet是apache的开源项目,一个压缩格式。parquet的数据自带表结构,所以需要创建schema对象。schema对象可以是spark中df的StructType,也可以是parquet官方提供的apitrapsspark中使用rdd和schema生成df然后使用write.parquet保存为parquet文件时,如果schema中某个字段设置nullable=true,Row中字段可以直接插入null,亲测scala的None不行。...原创 2020-05-14 18:01:31 · 381 阅读 · 0 评论 -
hive、impala的客户端,cli、beeline、WebHCat
连接hive有2种形式,shell和jdbc(beeline)一、shell二、beeline整合kerberos时设置要principal是hive服务的,登录用户是krb认证的,krb认证谁beeline当前用户就是谁。...原创 2020-04-12 21:45:36 · 3668 阅读 · 1 评论 -
hive-函数:自带和UDF
一、srcshow functions自带常用函数count,sum,max,min,avg,时间,trim,如果需要自定义,要用自定义的https://blog.csdn.net/jy02268879/article/details/81323293二、usagenote{1} UDF必须要有返回类型,可以返回null,但是返回类型不能为void{2} 自定义函数分3种[1] U...原创 2020-03-20 10:07:32 · 207 阅读 · 0 评论 -
hive-有用命令
查看一个hive表的总容量db_name=$1table_name=$2hadoop fs -du /user/hive/warehouse/db_name.db/table_name|awk ’ { SUM += $1 } END { print SUM/(102410241024) }’原创 2020-03-17 23:40:04 · 151 阅读 · 0 评论 -
hive-版本须知
在Hive发行版0.12.0和更早的版本中,列名只能包含字母数字和下划线字符。在Hive发行版0.13.0和更高版本中,默认的列名可以在漂号(`)(Tab键上面的那个符号)中指定,并包含任何Unicode字符(Hive -6013),但是,点(.)和冒号(:)在查询时会产生错误。在一个由反勾号分隔的字符串中,除双漂号(``)表示一个漂号字符外,所有字符都按字面意思处理。可以通过设置hive.su...原创 2020-08-22 08:31:14 · 568 阅读 · 0 评论 -
hive-修改表结构
自定义标题http://www.manongjc.com/article/57670.html一、列的CRUD1. 增加列2. 改变列名/类型/位置/注释3. 删除列二、分区1. 新增分区2. 重命名(移动)分区example3. 表之间移动分区4. 恢复分区(加载分区文件)(MSCKREPAIR TABLE)example:5. 删除分区example三、表1. 重命名2. 修改表的`TBLPR...原创 2020-03-13 21:24:41 · 6705 阅读 · 1 评论 -
hive-数据类型
hive理解原创 2020-03-15 11:11:20 · 1097 阅读 · 0 评论 -
hive-创建表、添加、导出数据
hive原创 2020-03-13 21:59:59 · 1241 阅读 · 0 评论 -
Spark-代码-整合Hive并进行kerberos认证
- SparkSQL整合Hive做数据源- Spark程序连接Hive时进行kerberos认证原创 2020-02-05 20:45:46 · 5862 阅读 · 1 评论