Hive常用统计函数

本文介绍了Hive中的统计函数,包括SUM、AVG、MIN、MAX等基础统计,NTILE、ROW_NUMBER等排名函数,LAG、LEAD等窗口函数,以及GROUPING SETS、GROUPING_ID等分组聚合函数。每个函数都详细解释了其用法和应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

hive统计函数

第一组:SUM、AVG、MIN、MAX

sum: sum(score) over (partition by a order by b)
当over()语句置空时,窗口默认返回所有行

第二组:NTILE、ROW_NUMBER、RANK、DENSE_RANK、CUME_DIST、PERCENT_RANK

NTILE(N):分组数据按照order by子句顺序切分成N片,返回当前行切片值,如果切片不均匀,默认增加第一个切片的分布。
ROW_NUMBER():分组数据按照order by子句顺序,生成分组内记录的序列。
RANK():分组数据按照order by子句顺序,生成数据项在分组中的排名,排名相等会在名次中留下空位。
DENSE_RANK():分组数据按照order by子句顺序,生成数据项在分组中的排名,排名相等不会在名次中留下空位。
CUME_DIST():分组数据按照order by子句顺序,生成(分组内小于等于当前值的行数) / (分组内总行数)的值。

PERCENT_RANK():分组数据按照order by子句顺序,生成(分组内当前行的RANK值-1) / (分组内总行数-1)。

第三组:LAG、LEAD、FIRST_VALUE、LAST_VALUE

本组函数不支持Window子句。

LAG(col,n,DEFAULT)*:分组数据按照order by子句顺序,用于统计窗口内向上数第n行的col列值, DEFAULT为默认值(

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值