计算互相关注的SQL怎么写

最新推荐文章于 2024-06-04 12:00:00 发布

转载最新推荐文章于 2024-06-04 12:00:00 发布 · 2.2k 阅读

4 ·

CC 4.0 BY-SA版权

原文链接：https://blog.csdn.net/a_void/article/details/103273954

Hive 同时被 2 个专栏收录

50 篇文章

订阅专栏

大数据综合

43 篇文章

订阅专栏

本文探讨了在大数据场景下如何避免使用JOIN操作来计算用户间的双向关注关系。通过分析用户关注表，提出利用排序和窗口函数的方法，以提高效率。这种方法能够处理用户量和关注关系达到亿级和百亿级的情况，并且讨论了可能存在的数据重复问题及解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

计算互相关注的SQL应该怎么写
用户好友关系是一个产品的核心数据，只允许互相关注的用户之间发消息称为强关系型产品，比如微信；反之，不互相关注也能看到动态，比如微博，就是弱关系型产品

因为微信的存在，现在基本能做大的都是社区型的，弱关系型的产品了。所以互联网公司就很容易碰到，从单向关注数据中计算是否双向关注这种需求。

假设现在有一张表，叫table_relation里面只有两个字段，from_user，to_user, 代表关注关系从from指向to，即from_user关注了to_user。

select 
  a.from_user,
  a.to_user,
  if(b.from_user is not null, 1, 0) as is_friend
from table_relation a left join table_relation b
on a.from_user = b.to_user and a.to_user = b.from_user

这个sql可以实现需求，问题是当用户量到了亿级别，关注关系到了百亿级别，join起来的效率就会很低。

避免join的方法就是找到双向关注之间的共性，假设有两条记录(A,B)和(B,A), 它们有什么特点呢？

哈哈，答案就是都有A和B，假设按照字典顺序做一次排序，那么排序后的结果都是(A, B), (A, B)。那我们的思路就是把特征相同的数据分到一组，计算组里面的数据条数，为1则是单向关注，为2则是双向关注。这样，利用窗口函数，不用join就能得到答案了～

select 
  a.from_user,
  a.to_user,
  if( sum(1) over (partition by feature) > 1, 1, 0) as is_friend
from 
(
  select 
    a.from_user,
    a.to_user,
    if(from_user > to_user, concat(to_user, from_user), concat(from_user, to_user)) as feature
  from table_relation 
)a