
1.概述
Hive 表关联查询,如何解决数据倾斜的问题?
1)倾斜原因: map 输出数据按 key Hash 的分配到 reduce 中,由于 key 分
布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的 reduce 上的
数据量差异过大。
( 1) key 分布不均匀;
( 2)业务数据本身的特性;
( 3)建表时考虑不周;
( 4)某些 SQL 语句本身就有数据倾斜;
如何避免:对于 key 为空产生的数据倾斜,可以对其赋予一个随机值。
2)解决方案
( 1)参数调节:
hive.map.aggr =