【SQL】数据倾斜 SQL 改写

最新推荐文章于 2025-02-23 21:39:33 发布

原创

最新推荐文章于 2025-02-23 21:39:33 发布 · 1.2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#金融 #大数据 #数据库

欢迎点击此处关注公众号。

数据倾斜有很多种处理方式，几乎是面试必考题了。今天总结一下可能数据倾斜的 SQL 以及如何改写。

1.求 UV

UV 就是独立访客，经常求的指标，因为要 count distinct，所以非常容易倾斜。

例如：一个表 tb 有两个字段，app_id，user_id，app_id 代表了不同的 app，求每个 app 的 UV。

普通的 SQL：

select
	app_id,
	count(distinct user_id)
from tb
group by app_id;

根据 group by 的执行原理，app_id 相同的会发到同一个 reduce 中处理。如果某一个 app_id 数据量很大（比如抖音远大于西瓜视频），那么就会产生倾斜。

因此，可以分为两个阶段，一个阶段通过 group by 对 app_id 和 user_id 进行去重，第二个阶段再计算 UV。

select
	app_id,
	sum(uv) as uv
from (
	select
    	app_id,
    	user_id,
    	1 as uv
    from tb
    group

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

和风与影

关注关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

解决SQL Server SQL语句性能问题（9）——SQL语句改写（4）

数据库生态圈（RDB & NoSQL & Bigdata）——专注于关系库优化（Oracle&Mysql&PG&SQL Server ）

07-02

236

本文对解决SQL Server SQL语句性能问题（9）——SQL语句改写（消除in及not in），结合实例进行了较为深入详细的说明和讲解，并对注意事项、关键知识点和选项等进行了重点标注和详尽解析，以便于读者进行深入学习和理解。

(15)Hive调优——数据倾斜的解决指南

爱吃辣条的博客

02-10

4117

Hive调优——数据倾斜指南

参与评论您还未登录，请先登录后发表或查看评论

SQL如何解决数据倾斜

weixin_44929278的博客

04-28

806

简单来说，在表z中新增一列number，表x的每一行数都分别对应number列中的数值1-5（即将表z的每一行数据膨胀5倍），然后表y在跟表x关联时，不仅要关联之前的关联键，还要关联CAST(rand() * 5 + 1 AS INT) = 表z的number，这样就能起到打散的作用了。简单来说，数据倾斜就是一张表的关联键或者聚合键中，某个或者某些特定数值出现的频率远大于其它数值，经过shuffle之后，某些节点的计算量远大于其他节点，使得hadoop无法发挥分布式计算的优势，最终导致计算时间过长。

SQL03：数据倾斜问题

weixin_44744736的博客

01-30

1215

由于数据的分布不平衡导致某些reducer节点被分配的key值特别多，而其他reducer节点被分配的特别少，最终在处理数据时，数据量小的节点都在等这个量大的节点完成任务。因为其处理的数据量和其他reduce差异过大，单一reduce的记录数与平均记录数差异过大，最长时长远大于平均时长。执行一个非常简单的SQL语句，但任务的进度条长时间卡在99%，不确定还需多久才能结束，其实就说明我们遇到了数据倾斜问题。那么hive遇到数据倾斜，可能的原因是什么？空值分配随机的key值。（2）SQL语句优化。

HIVE SQL数据倾斜情况以及解决办法

xw514124202的博客

06-30

4350

如何查看历史所有数据倾斜的任务参考之前的博客获取YARN上执行时间最长的JOB列表，并查看是否存在数据倾斜 1. JOIN 数据倾斜 1.1 空值问题 select t1.id from table_a t1 left join table_b t2 on t1.id = t2.id 如果 t1.id 存在过多的NULL值，那么可能会造成数据倾斜解决办法如下（将NULL赋随机值） ...

大数据 SQL 数据倾斜与数据膨胀的优化与经验总结

阿里云云栖号

06-26

1343

本文主要基于团队实际开发经验与积累，并结合了业界对大数据SQL的使用与优化，尝试给出相对系统性的解决方案。

常用sql函数+sql优化+数据倾斜

bigthinkbrother的博客

03-04

2807

【SQL】数据倾斜处理之加盐哈希

每天更新大数据面经和技术

12-11

1605

sql

大数据SQL优化之数据倾斜解决案例全集

OPPO数智技术

01-05

983

大数据任务领域里最困难的问题莫过于数据倾斜，除了一些常规的参数优化外，还有一些非常困难以致于必须通过SQL改写才能避免倾斜的情况。本文介绍了如何解决关联结果膨胀，如何巧妙的避免全局排序以及如何解决写倾斜等情形。

【MaxCompute实践】数据倾斜调优

2401_88127808的博客

12-14

1152

本文为您介绍使用MaxCompute过程中常见的数据倾斜场景以及对应的解决方案。

【HIVE数据倾斜常见解决办法】

xiannon的博客

04-04

9196

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤 1.引入库代.

【Hive】Hive数据倾斜以及解决方案

qq_37472274的博客

08-08

3343

数据倾斜就是我们在计算数据的时候，数据的分散度不够，导致大量的数据集中到了一台或者几台机器上计算，这些数据的计算速度远远低于平均计算速度，导致整个计算过程过慢。

Spark Sql 处理groupby 的数据倾斜问题

iilegend的博客

07-29

1615

写sql处理使用groupby 产生的数据倾斜问题： import java.util.Random import org.apache.spark.sql.SparkSession object TestUDF { def main(args: Array[String]): Unit = { val spark = SparkSession.builder() ...

hive 调优记录

zhaoguoxian12345的专栏

12-16

3181

数据倾斜总结在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，

SQL数据倾斜处理

aline12的博客

12-15

1314

调度中某跑批脚本出现问题排查原因发现是某一个reducer卡死了继续追踪原因是group by 字段中有一个字段，出现了大量记录集中于一个值上，造成了数据倾斜解决方案，将group by a,b,c 改写成group by concat(a,b,c) 再嵌套一层解析出原始的三个字段的sql 成功解决了数据倾斜的情况 ...

sql(2)数据倾斜

最新发布

weixin_41506107的博客

02-23

356

因为，分组是必聚合的，所以，我们可以做预聚合。：对倾斜列的数据，进行单独处理。也就是遇到倾斜列的数据的时候，直接找一个中间目录临时存储，当前MR不去处理，等当前MR完成后，在单独处理这个倾斜的数据集。（4）特别注意，已经存在倾斜的字段，如果作为join的关联键，容易产生大量笛卡尔积，一层一层传导，造成数据爆炸，影响生产任务。（1）数据预处理：数据清洗，制定数据有效性清洗规则，避免无效数据大量集中于某个key,或让分区更合理；：为键添加一个随机的前缀或后缀（称为“盐值”），将原本集中的数据分散到多个分区中。

按图索骥：SQL中数据倾斜问题的处理思路与方法

Enmotech的博客

12-28

4765

数据倾斜即表中某个字段的值分布不均匀，比如有100万条记录，其中字段A中有90万都是相同的值。这种情况下，字段A作为过滤条件时，可能会引起一些性能问题。　本文通过示例分享部分场景的处理方法　未使用绑定变量使用绑定变量几种特殊场景1测试环境说明数据库版本：ORACLE 11.2.0.4新建测试表tb_test：create tablescott.tb_test as select * from db

SQL_Hive_数据倾斜优化大全

迎难而上

07-25

302

有一些算法基础的同学都知道排序操作在软件领域是开销非常大的操作，目前大规模应用的几大排序算法的时间复杂度中最好的也是O(nlogn)，即随着数据量的增长而非线性的增长。通常这个条件都会满足的，因为如果不满足的话，说明key值非常多，非常稀疏，也不会产生倾斜的困境了。在优化战略生态部门的任务dwd_ocloud_dau_info_d任务的时候，我们发现任务的运行时间一直在增长，一度达到7个小时，直到8月1号便再也跑不成功，总是OOM（内存不够），即使将executor的内存调高到10G依然解决不了问题。

SQL性能优化：索引设计与查询优化

- 对于范围查询，确保索引列上的数据分布均匀，避免出现“索引倾斜”。此外，还可以考虑以下优化策略： - 使用EXPLAIN或查询分析器来分析查询计划，找出性能瓶颈。 - 分区表可以提高大规模数据的查询速度，通过将...