RAISE：用于交互式SQL探索的推理代理

最新推荐文章于 2025-07-31 15:24:23 发布

Paper易论

最新推荐文章于 2025-07-31 15:24:23 发布

阅读量1k

点赞数 7

CC 4.0 BY-SA版权

文章标签： sql oracle 数据库

本文链接：https://blog.csdn.net/u013524655/article/details/148906114

Fernando Granado ${ }^{1}$ , Roberto Lotufo ${ }^{1}$ , Jayr Pereira ${ }^{1}$
${ }^{1}$ Universidade Estadual de Campinas (UNICAMP).

贡献作者: f171517@dac.unicamp.com; lotufo@unicamp.com; jayr@unicamp.com;

摘要

大型语言模型（LLMs）的最新进展推动了数据库自然语言接口的研究。然而，最先进的文本到SQL系统仍然依赖复杂的多阶段流水线。本文提出了一种新的智能体框架，将模式链接、查询生成和迭代优化统一在单一的端到端组件中。通过利用LLMs固有的推理能力，我们的方法模拟了人类在处理不熟悉数据库时回答问题的方式：通过形成假设来理解数据，运行动态查询验证这些假设，对结果进行推理，并根据观察结果修订输出。关键的是，我们的方法在文本到SQL任务中引入了一种新的测试时间计算扩展策略：我们扩展了交互式数据库探索和反思的深度。这一转变使模型能够动态分配计算资源以更好地理解数据，尤其适用于模糊和未明确指定的情景。我们的实验表明，在具有挑战性的BIRD数据集上使用DeepSeek-R1-Distill-Llama-70B，执行准确率（EX）从44.8%提高到56.5%。此外，当配备增加答案多样性的步骤后，我们的代理在8轮候选生成中达到了81.8%的最佳N准确率，与顶级发布的解决方案达到的82.79%相当，同时减少了工程复杂性。这些发现使我们的统一框架成为构建数据库自然语言接口的一种有前途的替代方案。

关键词：文本到SQL，NL2SQL，推理代理，测试时间计算

1 引言

使用存储在数据库中的信息回答自然语言问题是许多经济部门的关键任务，在数据驱动决策中起着核心作用。大型语言模型（LLMs）的最新进展为自动化文本到SQL任务开辟了新的可能性，因为这些模型表现出强大的推理能力和广泛常识知识 [1-7]。然而，即使将LLMs集成到复杂的流水线中，最近的基准测试仍显示该领域机器与人类之间存在性能差距 [5, 8-10]。

当前的文本到SQL系统通常依赖于复杂的多组件流水线，将诸如模式链接、查询结构化和结果验证等任务委托给专门模块 [6, 8-13]。此外，尽管测试时间计算在更广泛的AI领域取得了成功应用 [14, 15]，当前的流水线大多将其应用限制在迭代查询优化和查询选择策略（如自洽或最佳N）上 [9-11, 16, 17]。另一方面，人类往往花费大量时间探索数据库以更好地了解可用数据、数据存储方式、解释模糊的列名以及识别数据中的不一致性。然而，这些系统并不能扩展计算来支持这种行为。

虽然模块化流水线可以提高准确性，但也会增加工程复杂性。鉴于LLMs的推理和泛化能力，一个重要的问题出现了：我们能否通过允许模型自主处理更多这些任务来简化这些流水线？具体来说，一个端到端的代理是否能够动态地推理模式链接，制定查询，迭代结果，识别并处理歧义，并在需要时分配更多时间到这些步骤，而无需大量的手动设计？

为了回答这个问题，本文介绍了一种新颖的代理方法，将模式链接、查询组合和查询优化统一在一个组件中。我们的方法利用模型的内部推理轨迹来指导与数据库的交互——探索表格，解释结果，并以类似人类分析师的方式修订假设。这引入了一种新的测试时间计算扩展策略：通过增加模型交互来加深数据库探索和对查询结果的反思。无需任何微调，我们的代理能够在BIRD数据集上的81.8%的问题中生成正确解，与领先的多阶段流水线候选生成解决方案（如最先进的端到端解决方案达到的82.79%）竞争。这挑战了主流观点，即LLMs需要大量外部支持才能在文本到SQL任务中表现良好。

本文的主要贡献如下：

一种统一的代理框架，能够在单个基于LLM的组件内执行模式链接、查询生成和优化；
1. 一种新的文本到SQL测试时间计算扩展策略：通过增加模型交互来加深数据库探索；
  ${ }^{1}$ 所有提示和生成数据样本可在Dropbox文件夹中找到。
  本文其余部分结构如下：第2节回顾了文本到SQL模块化流水线的相关工作。第3节介绍了我们提出的代理框架，描述其推理过程、数据库交互工具、控制机制以及生成多样化输出的策略。第4节则展示了我们的实验设置，包括评估框架和代理之间的受控比较。第5节分析了结果，重点突出动态探索和流水线增强的影响。最后，第6节总结全文。

2 相关工作

现代文本到SQL解决方案依赖于复杂排列的独立组件组装以生成最终SQL查询 [6, 8-10, 12, 13, 17, 19-21]。其中一些最重要的组件是：1）模式链接，负责过滤相关表和列以回答问题；2）生成模块，负责生成高质量且多样化的候选解决方案集合；3）选择模块，负责从生成的候选中选择最合适的SQL。这种架构支撑了BIRD基准测试中一些最佳解决方案的表现 ${ }^{2}$ 。

CHESS [8] 引入了一个复杂的模式链接模块，启发了许多后续工作 [9, 10, 20]。它遵循一个多阶段流水线，从预处理开始，然后通过三步漏斗逐步缩小相关模式元素。在预处理期间，CHESS检测输入问题中提到的实体，并使用局部敏感哈希[22]和编辑距离将它们匹配到相似的列值。基于嵌入的相似性用于从数据库目录中检索相关信息，启发式方法（如始终包含外键）确保包含必要的模式元素。这些输出条件化每个漏斗阶段使用的提示。

生成阶段通常作为迭代过程实现：生成候选查询，执行并根据观察结果进行精炼，直到达到满意的答案。这也是通过增加候选数量和精炼步骤来扩展测试时间计算的主要地方。CHASE-SQL [9] 和 XIYAN-SQL [10] 强调生成广泛多样化的候选以增加从中找到正确答案的可能性。CHASE-SQL 引入了三个独立的生成代理，使用不同策略构建查询。而 XIYAN-SQL 则分两步微调模型以提升其生成能力和与基准语法偏好的对齐度。在推理时，它选择与输入问题相似的训练示例包含在提示中以鼓励多样化输出。IAD [11] 使用验证代理向生成器提供反馈，以提高每个候选的质量。

从生成的候选池中，最终查询基于执行结果进行选择。某些方法，如 [9] 和 [10]，会专门训练特定模型来评估和选择最佳表现的查询。

${ }^{2}$ https://bird-bench.github.io/
总之，目前表现最好的流水线依赖大量人工工程来处理问题的复杂性，并为模型控制和整体数据推理提供了有限的空间。

3 RAISE：用于交互式SQL探索的推理代理

我们提出了一种端到端代理，旨在通过结合LLMs的推理能力和一组结构化工具，回答关系数据库上的自然语言问题。不同于依赖僵硬多阶段流水线的传统系统，我们的代理具有灵活性，可以探索数据库并解决问题，类似于人类分析师的做法。该模型可以形成假设，查询数据，反思中间结果，并迭代直到得出自信的答案。图1提供了该代理的视觉表示。

图1 展示了交互性和选择性数据库探索的表示，其中模型探索其数据并通过推理返回最终解决方案。

3.1 基于思维的规划

我们方法的核心是一个推理LLM，它在产生最终答案之前显式生成思维。这些模型能够处理复杂的多步骤推理任务，其中它们可以将复杂问题分解为可管理的组成部分，识别潜在错误，并迭代精炼中间步骤以达到准确的解决方案[14]。最近研究表明，此类模型，包括深度研究风格架构 ${ }^{3}$ ，在结构化规划和自我修正方面表现出色，在各种高复杂性场景中提供稳健的性能。在我们的实验中，我们使用了DeepSeek-R1-Distill-Llama-70B [23] 来实现这一核心角色。

为了支持与数据库的交互，我们通过工具使用扩展了代理的能力。在我们的框架中，工具提供了对数据库内容和模式文档的访问。代理配备了以下四种工具：

read_table_names()
- read_table_columns(table_name: str)
- read_columns_documentation(column_names: list[str])
- run_query(sql: str)
  这四种工具旨在复制人类为高效收集回答问题所需信息所采取的行动。这包括识别相关的表和列，制定和验证关于数据及其存储方式的假设。例如，代理可能会运行任意查询以检查某个表中的记录是否在另一个表中缺失；验证列值是否一致遵循特定格式；通过确定每个ID持有的唯一数据来深化对ID列的理解；或交叉验证数据库文档与实际值的一致性。在测试时，代理可以扩展这些操作以运行更多检查并收集更多信息，从而实现对数据库的精确理解。此外，这使其仅探索相关的数据库部分，有助于保持上下文窗口紧凑。因此，该框架在保持上下文窗口在可管理范围内的同时提供了对可用数据的完全访问。

为了操作化这种交互，我们定义了一个特殊标签{EXECUTE}，用以标记模型发出需执行命令的时间点。检测到此标签后，我们从生成文本中解析工具调用，使用Python脚本执行，并将结果追加回模型上下文中。随后从更新状态恢复令牌生成，使模型能够在闭环反馈循环中迭代推理、观察结果并采取进一步行动。

3.2 控制

我们观察到，当直接使用时，模型在某些场景下偶尔会表现出不良行为：

${ }^{3}$ https://openai.com/index/introducing-deep-research/

当仅给出提示时，模型倾向于过于直接地回答问题，而未能充分理解可用数据。在许多情况下，它跳过了明显相关且若仔细检查会显著改变其最终响应的部分数据库。
1. 在遇到模糊结果（如查询返回零行）时，甚至在没有任何明显问题的情况下，模型可能会陷入漫长且有时重复的推理循环，无法朝着解决方案取得实质性进展。
  为了改善模型的行为，鼓励更深入的数据库探索，稳步推进解决方案，并持续生成最终答案，我们引入了以下调整：
我们硬编码了每次推理轨迹的开头短语：“在思考解决方案之前，我将深入了解数据而不对其做出任何假设。” 这有助于引导模型在尝试回答前先探索数据。
1. 我们设定了模型在不执行任何操作的情况下生成的令牌数上限。如果超过1400个令牌而没有工具调用，我们强制追加短语：“等等，我已经思考太久而没有与数据库交互。我可以使用[RUN] run_query(…) [EXECUTE]命令运行查询并查看结果。”
1. 如果模型在10,000个令牌内未能生成最终答案，我们通过追加：“我已经思考太久。我现在将生成我的最终解决方案。” 来强制终止。

3.3 生成多样化答案

生成一组多样化的候选解决方案对于提高找到正确查询的机会非常重要，这可以通过后续模块进行选择。此外，BIRD基准测试包含一系列隐含偏好，使得即使查询遵循正确逻辑也可能被判定为错误。例如，如果列的选择顺序不同或包含额外列，则结果会被判定为错误；黄金查询通常在过滤前连接所有表，这可能导致其他表中缺失记录的情况丢失，以及其他诸多偏好。通过生成多样化的候选集，我们可以增加出现被判定为正确的候选的机会。经过微调以选择正确偏好的选择模型可以从中选择一个。

我们注意到，单纯增加温度不足以提高答案多样性，因为每个模型都有非常强的偏见。然而，我们发现不同模型有不同的偏见，这是提高多样性的有效方法。因此，在初始模型完成探索后，包括所有已执行的操作及其结果，我们提示两个不同的LLM，Claude 3.7 Sonnet和o3-mini，阅读这次探索并独立生成最终答案。我们还对解决方案进行后处理，只更改选定的列，不改变查询逻辑。这是通过询问一个模型来专门识别应该选择哪些列以及按什么顺序进行的。完整的RAISE流程如图3所示。

4 实验设置

图2 展示了开发框架以评估扩大数据库理解深度对执行准确率（EX）影响的概述。最终的SQL生成是从包含代理执行命令的提示中创建的。我们变化提示中包含的命令数量以评估探索深度增加的影响。

在我们的实验中，我们旨在回答以下研究问题：

向代理添加灵活和动态的数据库探索能力会产生什么影响？
1. 在推理时扩大探索深度时性能如何变化？
1. 简单的基于我们推理代理的管道，结合增加多样性的元素，能达到的上限性能是什么？
  我们在BIRD开发集的10%分层样本上进行实验。这个数据集以涵盖多样化领域和呈现现实世界挑战著称，如数据清洗问题和问题歧义。

为了回答问题1和2，我们设计了一个框架，将动态数据库探索的影响与其他因素隔离开来。如图2所示，该管道分为两个阶段：探索数据库和根据探索结果生成最终答案。

数据库探索由两个代理执行，分别是交互代理和静态代理。交互代理正如3.1节所述，而静态代理相同，只是没有"run_query"操作。这意味着它可以读取表名、列和文档，但不能随意执行查询来探索数据库。我们使用这两个代理生成问题答案，并跟踪过程中它们运行的操作。

在生成最终答案时，我们丢弃代理生成的答案，仅将操作输入和输出插入新提示中以生成最终SQL查询。这样，我们可以控制生成最终结果所使用的操作数量，从而评估其扩展属性，同时保持探索代理和静态代理的最终生成设置相同。它们唯一的区别是插入最终提示中的操作结果。

此外，我们在两个代理的最终生成步骤中评估了查询优化的加入。这一步骤最多重试5次最终SQL生成，以获得无错误执行且非空结果的查询；每次重试时，都会将先前尝试的错误消息追加到插入提示中的操作中。尽管这可以被视为动态数据库探索的一部分，但我们选择在静态代理上评估其影响，以了解两个代理之间的差异有多少来自迭代查询优化，有多少来自其他数据库理解方面（例如，通过检查可用数据来优化问题解释）。

图3 展示了完整的RAISE管道概述。它包括一个与数据库交互的代理，生成一系列已执行命令。这些命令被纳入用于有效生成SQL查询的提示中。为了增加多样性，除了DeepSeek-R1-Distill-Llama-70B之外，我们还包括了另外两个模型：o3-mini和Claude 3.7 Sonnet。o3-mini的输出经过一个后处理步骤，修改选定的列而不改变查询逻辑。我们还选择丢弃代理的最终输出，因为我们发现即使使用相同的模型，在后续提示中生成最终答案效果更好。

为了回答问题3，我们使用3.1节描述的完整RAISE管道，如图3所示。

5 结果

图4 显示了添加数据库探索能力和扩展探索深度（通过执行命令的数量衡量）对执行准确率的影响。查询优化可以视为探索过程的一部分，但我们选择单独评估。

5.1 动态数据库探索的影响

图4展示了图2详细描述的评估设置的结果。我们可以看到，添加查询优化将静态代理的执行准确率从42.9%提高到44.8%。虽然这很重要，但这一改进只是添加动态数据库探索能力所带来的改进的一小部分，后者将准确率提高到了56.5%。这一结果突显了在推理时灵活探索数据库、理解数据和问题细节所带来的收益远超单纯的查询优化步骤带来的收益。

此外，它还显示了数据库测试时探索的深度（通过插入推理提示中的命令数量衡量）与执行准确率之间存在正相关关系。准确率从3条命令显著提高到15条命令，显示模型获得了有价值的知识来回答问题。然而，在15条命令之后准确率趋于平稳。这主要是因为模型通常生成的命令少于15条。因此，即使限制允许，最终生成也没有额外的命令可以加入。

5.2 评估最终管道

为了评估完整的RAISE管道作为下游选择的即插即用候选生成器的性能，我们将它的候选池覆盖率与领先的多阶段系统进行比较。表1报告了Best-of-N指标，定义为
表1 BIRD数据集上RAISE与领先候选生成管道的上限执行准确率比较。

方法	执行准确率（最佳N）
CHESS	$\%$
CHASE-SQL - 分而治之	$\%$
CHASE-SQL - 查询计划	$\%$
CHASE-SQL - 在线合成示例	$\%$
CHASE-SQL - 完整版	$\%$
Reasoning-SQL - 监督微调	$\%$
Reasoning-SQL - GRPO	$\%$
RAISE（我们的）	$81.8%\mathbf{8 1 . 8 \%}$

${ }^{1}$ 除CHASE-SQL - 完整版外，结果均取自发表的扩展图表，最大可用N值，数值接近饱和。
至少有一个生成的候选在BIRD基于执行的评估中与黄金SQL完全匹配的问题比例。这个数字代表了当使用生成管道时下游选择过程可以达到的上限性能。

在我们对BIRD开发集的分层样本中，RAISE达到了81.8%的Best-of-N执行准确率，意味着正确的SQL查询出现在DeepSeek-R1、o3-mini和Claude 3.7 Sonnet生成的聚合候选中（包括列顺序后处理）。如此高的覆盖率证明了我们的统一探索代理加上多样性生成策略能够在无需任何微调的情况下可靠地揭示正确解决方案。

RAISE的81.8% Best-of-N准确率使其成为BIRD上最具竞争力的候选生成管道之一（表1）。它轻松超过了CHESS（71.0%），也超过了所有三个CHASE-SQL变体——分而治之和查询计划（均为76.0%），以及在线合成示例（72.5%）。它还超过了两个Reasoning-SQL方法（监督微调为76.5%，GRPO为73.5%），尽管这些方法是在BIRD黄金查询上直接调优的。在纯Best-of-N覆盖率方面唯一超过RAISE的是CHASE-SQL - 完整版（82.79%），它通过使用三个专用生成代理生成21个候选，并进行广泛的模式链接和值选择来简化数据库表示。值得注意的是，CHASE-SQL是当前BIRD基准测试中表现最佳解决方案的基础。

图5显示了RAISE的Best-of-N准确率的扩展特性，从1到8轮生成性能稳步提升。这种持续增长凸显了代理在独立探索和识别数据库中相关信息的有效性，以及在管道中生成多样化和相关解决方案的能力。

图5 BIRD数据集中至少有一个正确解决方案出现在候选中的问题比例。

6 结论

传统的文本到SQL系统一直依赖复杂的多阶段流水线，将模式链接、查询生成和结果验证分离成专门的模块。尽管大型语言模型取得了进步，但这些方法增加了工程复杂性，同时可能限制了现代LLMs的自然推理能力。

本文介绍了一种新的智能体框架，将模式链接、查询生成和优化统一在一个组件中。我们的智能体利用LLMs的内部推理轨迹来操作工具，探索数据集及其文档，使其能够像人类一样与数据库交互。该框架引入了一种新的文本到SQL测试时间计算扩展策略，即通过扩展数据库探索量来更好地掌握存储内容、存储方式及其不一致性。我们的评估显示，配备多样性提升策略的智能体在BIRD数据集上可以达到81.8%的最佳N准确率，与顶级生成组件竞争，同时显著降低工程复杂性。

这些发现表明了一种有希望的替代范式，用于构建更贴近人类分析过程的数据库自然语言接口。

虽然RAISE证明了在单一基于LLM的智能体中统一模式链接、查询组成和优化的可行性和有效性，但仍有许多有希望的方向可以进一步增强其功能并拓宽其适用范围。一个有前景的方向是对交互智能体进行强化学习训练。我们假设，当训练模型达到正确答案时，它将学会更有效地探索数据库，增加执行命令的数量以澄清歧义并深化对数据和问题的理解。

未来工作留下的另一个关键挑战是选择单一的最终SQL查询。由于这项任务对基准测试偏好非常敏感（例如所选列的顺序），可能无法完全捕捉真实的答案质量。未来的研究所可以针对BIRD数据集微调专门的选择模型应用于RAISE管道，并开发对偏好更稳健的评估指标。

参考文献

[1] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J.D., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., et al.: Language models are few-shot learners. Advances in neural information processing systems 33, $1877 - 1901 (2020)$
[2] Bubeck, S., Chadrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., Lee, P., Lee, Y.T., Li, Y., Lundberg, S., et al.: Sparks of artificial general intelligence: Early experiments with gpt-4. ArXiv (2023)
[3] Wei, J., Wang, X., Schuurmans, D., Bosma, M., Xia, F., Chi, E., Le, Q.V., Zhou, D., et al.: Chain-of-thought prompting elicits reasoning in large language models. Advances in neural information processing systems 35, 24824-24837 (2022)
[4] Androutsopoulos, I., Ritchie, G.D., Thanisch, P.: Natural language interfaces to databases-an introduction. Natural Language Engineering 1(1), 29-81 (1995)
[5] Li, J., Hui, B., Qu, G., Yang, J., Li, B., Li, B., et al.: Can llm already serve as a database interface? a big bench for large-scale database grounded text-to-sqls. vol. 36, pp. 42330-42357 (2023)
[6] Liu, X., Shen, S., Li, B., Ma, P., Jiang, R., Zhang, Y., Luo, Y.: A Survey of NL2SQL with Large Language Models: Where Are We, and Where Are We Going?, (2024). arXiv preprint. https://arxiv.org/abs/2408.05109
[7] Gu, Z., Fan, J., Tang, N., Cao, L., Jia, B., Madden, S., Du, X.: Few-shot text-to-SQL translation using structure and content prompt learning, vol. 1, pp. 1-28 (2023)
[8] Talaei, S., Pourreza, M., Chang, Y.C., Mirhoseini, A., Saberi, A.: Chess: Contextual Harnessing for Efficient SQL Synthesis (2024) arXiv:2405.16755 [cs.CL]. arXiv preprint https://arxiv.org/abs/2405.16755
[9] Pourreza, M., Li, H., Sun, R., Chung, Y., Talaei, S., Kakkar, G.T., Arik, S.O.: CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL. arXiv preprint (2024). https://arxiv.org/abs/2410. 01943
[10] Pourreza, M., al.: Chase-sql: Multi-path reasoning and preference optimized candidate selection in text-to-sql. arXiv:2410.01943 (2024)
[11] Chakraborty, S., Pourreza, M., Sun, R., Song, Y., Scherrer, N., Gu, J., Pfister, T.: Review, Refine, Repeat: Understanding Iterative Decoding of AI Agents with Dynamic Evaluation and Selection. arXiv preprint https://arxiv.org/abs/2504. $01931 (2025)$
[12] Dong, X., Zhang, C., Ge, Y., Mao, Y., Gao, Y., Lin, J., Lou, D., et al.: C3: Zero-shot text-to-sql with chatgpt. arXiv preprint arXiv:2307.07306 (2023)
[13] Wang, B., Ren, C., Yang, J., Liang, X., Bai, J., Chai, L., Yan, Z., Zhang, Q.W., Yin, D., Sun, X., et al.: Mac-sql: A multi-agent collaborative framework for text-to-sql. arXiv preprint arXiv:2312.11242 (2023)
[14] Jaech, A., Kalai, A., Lerer, A., Richardson, A., El-Kishky, A., Low, A., Helyar, A., Madry, A., Beutel, A., Carney, A., et al.: Openai o1 system card. arXiv preprint arXiv:2412.16720 (2024)
[15] Snell, C., Lee, J., Xu, K., Kumar, A.: Scaling llm test-time compute optimally can be more effective than scaling model parameters. arXiv preprint arXiv:2408.03314 (2024)
[16] Cao, Z., Zheng, Y., Fan, Z., Zhang, X., Chen, W., Bai, X.: Rsl-sql: Robust schema linking in text-to-sql generation. arXiv preprint arXiv:2411.00073 (2024)
[17] Lee, D., Park, C., Kim, J., Park, H.: Mcs-sql: Leveraging multiple prompts and multiple-choice selection for text-to-sql generation. arXiv preprint arXiv:2405.07467 (2024)
[18] Li, J., Hui, B., Qu, G., Yang, J., Li, B., Li, B., Wang, B., Qin, B., Geng, R., Huo, N., et al.: Can llm already serve as a database interface? a big bench for largescale database grounded text-to-sqls. Advances in Neural Information Processing Systems 36 (2024)
[19] Pourreza, M., Rafiei, D.: Din-sql: Decomposed in-context learning of text-tosql with self-correction. Advances in Neural Information Processing Systems 36, $36339 - 36348 (2023)$
[20] Xie, X., Xu, G., Zhao, L., Guo, R.: Opensearch-sql: Enhancing text-to-sql with dynamic few-shot and consistency alignment. arXiv preprint arXiv:2502.14913 (2025)
[21] Pourreza, M., Talaei, S., Sun, R., Wan, X., Li, H., Mirhoseini, A., Saberi, A., Arik, S., et al.: Reasoning-sql: Reinforcement learning with sql tailored partial rewards for reasoning-enhanced text-to-sql. arXiv preprint arXiv:2503.23157 (2025)
[22] Datar, M., Immorlica, N., Indyk, P., Mirrokni, V.S.: Locality-sensitive hashing scheme based on p-stable distributions. In: Proceedings of the Twentieth Annual Symposium on Computational Geometry, pp. 253-262 (2004)
[23] Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., Xu, R., Zhu, Q., Ma, S., Wang, P., Bi, X., et al.: Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948 (2025)