分布式场景怎么Join | 京东云技术团队

原创

于 2024-02-20 16:32:36 发布 · 1.4k 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#分布式 #京东云

本文介绍了在分布式场景下，如何应用SystemR中排序-合并联接逻辑，探讨了ShuffleJoin、BroadcastJoin、MapReduceJoin和Sort-MergeJoin四种分布式联接算法的原理、优缺点及适用场景，重点讨论了内存管理和优化策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

背景

最近在阅读查询优化器的论文，发现System R中对于Join操作的定义一般分为了两种，即嵌套循环、排序-合并联接。在原文中，更倾向使用排序-合并联接逻辑。

考虑到我的领域是在处理分库分表或者其他的分区模式，这让我开始不由得联想我们怎么在分布式场景应用这个Join逻辑，对于两个不同库里面的不同表我们是没有办法直接进行Join操作的。查阅资料后发现原来早有定义，即分布式联接算法。

分布式联接算法

跨界点处理数据即分布式联接算法，常见的有四种模型：Shuffle Join（洗牌联接）、Broadcast Join（广播联接）、MapReduce Join（MapReduce联接）、Sort-Merge Join（排序-合并联接）。

接下来将进行逐一了解与分析，以便后续开发的应用。

Shuffle Join（洗牌联接）

先上原理解释：

Shuffle Join的核心思想是将来自不同节点的数据重新分发（洗牌），使得可以联接的数据行最终位于同一个节点上。通常，对于要联接的两个表，会对联接键应用相同的哈希函数，哈希函数的结果决定了数据行应该被发送到哪个节点。这样，所有具有相同哈希值的行都会被送到同一个节点，然后在该节点上执行联接操作。

可能解释完还是有点模糊，举个例子，有两张表，分别以id字段进行分库操作，且哈希算法相同（为了简单，这里只介绍分库场景，分库分表同理。算法有很多种，这里举例是hash算法），那么这两张表的分片或许可以在同一个物理库中，这样我们不需要做大表维度的处理，我们可以直接下推Join操作到对应的物理库操作即可。

在ShardingSphere中，这种场景类似于绑定表的定义，如果两张表的算法相同，可以直接配置绑定表的关系，进行相同算法的连接查询，避免复杂的笛卡尔积。

这样做的好处是可以尽量下推到数据库操作，在中间件层面我们可以做并行处理，适合大规模的数据操