Hive中的排序通常涉及到order by 、sort by、distribute by 、cluster by
一、语法
select
column1,
column2, ...
from table
[where 条件]
[group by column]
[order by column]
[cluster by column| [distribute by column] [sort by column]
[limit [offset,] rows];
二、排序介绍
2.1 order by
Hive的order by 与其他的sql一样,对所有数据进行排序,即:全局排序,只有一个 Reducer。在严格模式(set hive.mapred.mode=strict
)下,执行order by 必须加上limit 子句,避免数据集行数过大。order by 字段 ,默认是升序。
2.2 distribute by和sort by
针对order by的缺点,Hive提供了distribute by