hive统计函数
第一组:SUM、AVG、MIN、MAX
sum: sum(score) over (partition by a order by b)
当over()语句置空时,窗口默认返回所有行
第二组:NTILE、ROW_NUMBER、RANK、DENSE_RANK、CUME_DIST、PERCENT_RANK
NTILE(N):分组数据按照order by子句顺序切分成N片,返回当前行切片值,如果切片不均匀,默认增加第一个切片的分布。
ROW_NUMBER():分组数据按照order by子句顺序,生成分组内记录的序列。
RANK():分组数据按照order by子句顺序,生成数据项在分组中的排名,排名相等会在名次中留下空位。
DENSE_RANK():分组数据按照order by子句顺序,生成数据项在分组中的排名,排名相等不会在名次中留下空位。
CUME_DIST():分组数据按照order by子句顺序,生成(分组内小于等于当前值的行数) / (分组内总行数)的值。
PERCENT_RANK():分组数据按照order by子句顺序,生成(分组内当前行的RANK值-1) / (分组内总行数-1)。
第三组:LAG、LEAD、FIRST_VALUE、LAST_VALUE
本组函数不支持Window子句。
LAG(col,n,DEFAULT)*:分组数据按照order by子句顺序,用于统计窗口内向上数第n行的col列值, DEFAULT为默认值(