【SQL】数据倾斜 SQL 改写

欢迎点击此处关注公众号。

数据倾斜有很多种处理方式,几乎是面试必考题了。今天总结一下可能数据倾斜的 SQL 以及如何改写。

1.求 UV

UV 就是独立访客,经常求的指标,因为要 count distinct,所以非常容易倾斜。

例如:一个表 tb 有两个字段,app_id,user_id,app_id 代表了不同的 app,求每个 app 的 UV。

普通的 SQL:

select
	app_id,
	count(distinct user_id)
from tb
group by app_id;

根据 group by 的执行原理,app_id 相同的会发到同一个 reduce 中处理。如果某一个 app_id 数据量很大(比如抖音远大于西瓜视频),那么就会产生倾斜。

因此,可以分为两个阶段,一个阶段通过 group by 对 app_id 和 user_id 进行去重,第二个阶段再计算 UV。

select
	app_id,
	sum(uv) as uv
from (
	select
    	app_id,
    	user_id,
    	1 as uv
    from tb
    group
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值