SEED：通过自动生成证据提升文本到SQL的性能和实用性

最新推荐文章于 2025-07-31 15:24:23 发布

原创最新推荐文章于 2025-07-31 15:24:23 发布 · 664 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#sql #oracle #数据库

Janghyeon Yun
首尔国立大学，韩国
janghyeon@europa.snu.ac.kr

摘要

文本到SQL（Text-to-SQL）使得非专家能够通过将自然语言查询转换为SQL来从数据库中检索数据。然而，最先进的文本到SQL研究依赖于BIRD数据集，该数据集假设在问题中提供了证据。尽管BIRD促进了研究进展，但它假设用户具有专业知识和领域知识，这与文本到SQL的基本目标相矛盾。此外，BIRD中的人工生成证据包含缺陷，包括缺失或错误的证据，这影响了模型的性能。

为了解决这个问题，我们提出了SEED（System for Evidence Extraction and Domain knowledge generation），一种自动生成证据的方法，以提高在现实场景中的性能和实用性。SEED系统地分析数据库模式、描述文件和值以提取相关信息。我们在BIRD和Spider上评估了SEED，证明它在没有证据的情况下显著提高了SQL生成的准确性，并且在某些情况下甚至优于提供BIRD证据的情况。我们的结果表明，SEED生成的证据不仅弥合了研究与实际部署之间的差距，还提高了文本到SQL模型的适应性和鲁棒性。我们的代码可在https://github.com/felis01189/SEED获取。

关键词-TEXT-to-SQL, TEXT2SQL, NL2SQL, SQL, LLM.

I. 引言

从数据库中检索特定数据需要领域知识和SQL专业知识。然而，文本到SQL通过将用户的自然语言请求翻译成SQL查询，缓解了这一需求，从而使非专家轻松地从数据库中检索数据[1]-[3]。鉴于其潜力，大量研究已开展文本到SQL的研究，并随着大型语言模型（LLMs）的迅速发展，该领域正以前所未有的速度进步。

为了验证这些快速发展的技术的有效性，许多研究人员也开发了基准数据集。早期的数据集如WikiSQL [4]和Spider [5]为文本到SQL研究铺平了道路，目前BIRD [6]数据集已成为该领域的突出基准。

BIRD [6]数据集区别于早期数据集的地方在于，它通过描述文件提供关于模式和值的信息，并提供有助于SQL生成的证据。伴随每个问题的证据包括模式到值的映射和用于SQL生成必要计算的数学公式。

Sang-goo Lee $}^{\star \dagger}$
*首尔国立大学，韩国
$}^{\dagger}$ IntelliSys，韩国
sglee@europa.snu.ac.kr

(a) Spider数据集中文本到SQL问题的假设

(b) BIRD数据集中文本到SQL问题的假设

© SEED中文本到SQL问题的假设

图 1: 文本到SQL问题的假设示意图。

虽然像Spider [5]这样的早期数据集假设只提供问题（如图1a所示），但使用BIRD证据则假设用户还提供证据（如图1b所示）。然而，这一假设与文本到SQL的基本目标相矛盾。

尽管这一假设不现实，但大多数基于BIRD [6]开发的文本到SQL方法，如CHASESQL [7]、CHESS [8]和RSL-SQL [9]，都使用这些人工提供的证据。事实上，在BIRD排行榜上的前30个条目中，除了一个未发表的研究外，所有条目都使用了证据[7]-[17]。因此，在没有这种证据的真实世界环境中应用这些最先进的文本到SQL模型，会在学术研究和实际部署之间产生差距，导致性能显著下降。我们的实验确认了现有的文本到SQL模型在缺少证据时会出现显著的性能下降。

此外，我们的分析揭示了BIRD人工生成证据中的一些缺陷。如图2所示，对开发集（1,534个问题-SQL-证据对）的彻底审查发现，有 $\%$ （148对）完全没有证据，而 $\%$ （105对）包含错误的证据。
表I: BIRD开发集证据的错误样本

错误类型	不必要的信息
问题	列出由双键组成的分子TR024中的所有元素。
证据	双键指的是bond_type = ‘=’;
	element = 'cl’表示氯；element = 'c’表示碳；element = 'h’表示氢；
	element = 'o’表示氧，element = 's’表示硫；element = 'n’表示氮，
	element = 'p’表示磷，element = 'na’表示钠，element = 'br’表示溴，
	element = 'f’表示氟；element = 'i’表示碘；element = 'sn’表示锡；
	element = 'pb’表示铅；element = 'te’表示碲；element = 'ca’表示钙
修改后的证据	双键指的是bond_type = ‘=’;
错误类型	大小写问题
问题	有多少张限制状态的合法卡具有文字框？
证据	restricted指的是status = ‘restricted’; 具有文字框指的是is Textless = 0;
修改后的证据	restricted指的是status = ‘Restricted’; 具有文字框指的是is Textless = 0;
错误类型	错误的模式选择
问题	至少列出五个蓝眼睛超级英雄的全名。
证据	蓝眼睛指的是colour.colour = ‘Blue’
	WHERE eye_colour_id = colour.id;
	超级英雄的名字指的是superhero_name;
修改后的证据	蓝眼睛指的是colour.colour = ‘Blue’
	WHERE eye_colour_id = colour.id;
超级英雄的全名指的是full_name;

图 2: BIRD开发集证据错误率（左）和类型（右）。

表II: 对105个错误对进行证据校正前后性能比较。

	EX%
	缺陷证据
SFT CodeS-15B	44.76
SFT CodeS-7B	44.76
SFT CodeS-3B	43.81
SFT CodeS-1B	37.14

这些105对中的错误包括错误的计算、拼写错误、不必要的信息、大小写问题、无效的日期格式、错误的模式选择、无效的值映射以及比较运算符的误用。表I提供了这些问题的示例。考虑到开发集中约有7%的对包含有缺陷的证据，这些错误会引入噪声到文本到SQL模型中，可能会限制它们的性能。表II比较了CodeS [15]在105个错误对在手动纠正证据前后的性能。这表明错误的证据可以显著降低性能。

为了解决这些挑战，我们提出了SEED（System for Evidence Extraction and Domain knowledge generation）。SEED通过分析数据库的模式、描述文件和采样值来自动生成证据。通过消除对人工生成证据的依赖，SEED符合文本到SQL的原始目标，并弥合了学术研究和实际应用之间的差距。

为了验证SEED的有效性，我们在三种不同条件下进行了实验，使用多个文本到SQL模型：(1) 使用BIRD证据，(2) 不使用证据，和(3) 使用SEED生成的证据。我们的研究结果证实，与不使用证据的情况相比，SEED生成的证据改善了文本到SQL的性能，展示了其实用效果。

我们的贡献如下：

开发一个自动证据生成系统：我们介绍了SEED，这是一种自动生成证据的系统，以改进文本到SQL。SEED增强了文本到SQL在真实世界环境中的适用性，因为在这些环境中无法获得人工生成的证据。
- 弥合研究与实际部署之间的差距：通过自动化证据生成，SEED减轻了学术研究与实际实现之间的差距，
表III: BIRD证据的类别和样本，以及每项证据的信息来源
| 知识类型 | 领域知识 |
| — | — |
| 问题 | 命名有两个或更多实验室检查的患者ID和年龄 |
| | 这些检查显示他们的血细胞比容水平超过了正常范围。 |
| 证据 | 血细胞比容水平超过正常范围指的是HCT $>=$ 52; |
| 信息来源 | 数据库描述文件：Laboratory.csv |
| 信息 | 正常范围： $29<N<5229<\mathrm{N}<52$ |
| 知识类型 | 同义词知识 |
| 问题 | 在Jesenik分行开户的客户中有多少女性？ |
| 证据 | female指的是gender $=$ ’F’ |
| 信息来源 | 数据库描述文件：client.csv |
| 或 | 数据库值：select distinct gender from client |
| 信息 | F:female |
| M:male |
| 知识类型 | 值说明 |
| 问题 | 在每周发行账户中，有多少账户贷款低于200000？ |
| 证据 | frequency = ’POPLATEK TYDNE’ |
| | 代表每周发行 |
| 信息来源 | 数据库描述文件：account.csv |
| 信息 | “POPLATEK MESICNE” 代表每月发行 |
| | “POPLATEK TYDNE” 代表每周发行 |
| | “POPLATEK PO OBRATU” 代表交易后发行 |

使先进的文本到SQL模型更适用于实际采用。

识别使用BIRD证据的根本问题：我们强调了使用BIRD证据的不现实假设，揭示了其与文本到SQL目的的不一致性。我们的分析证实，现有文本到SQL模型在没有证据的情况下表现出显著的性能下降，突出了当前研究与实际可用性之间的差距。此外，我们发现了人工生成证据中的错误，强调了它们对模型性能的负面影响。
通过SEED，我们的目标是克服使用BIRD证据的局限性，并通过使其在真实场景中更加稳健、实用和有效，促进文本到SQL模型的更广泛采用。

II. 相关工作

A. BIRD数据集和证据

BIRD [6]数据集的研究人员强调，由于其嘈杂、混乱和大规模的性质，理解数据库内容至关重要。他们认为，外部知识对于改进文本到SQL模型理解数据库值的能力是必要的。他们将证据分为四类：(1) 数值推理知识：执行数学计算所需的专业知识。(2) 领域知识：特定领域的知识。(3) 同义词知识：有关同义词的信息，包括它们的含义和替代表达方式。(4) 值说明：数据库值的详细描述。

然而，除了数值推理知识之外，其余三类——领域知识、同义词知识和值说明——可以通过对数据库模式、描述文件和值样本的详细分析得出。表III提供了这三种类型的证据示例，说明这些知识可以直接从给定的数据库信息中推断出来。

因此，BIRD中提供的证据主要由用于数学推理的SQL相关知识和通过数据库分析提取的领域知识组成。这表明大部分证据并不是外部知识，而是数据库本身固有的信息。

B. 文本到SQL

早期的文本到SQL方法是基于规则的，依赖于预定义模式[2], [3]。然而，这些方法高度专业化于特定数据库，限制了它们的泛化能力。一个典型的例子是NaLIR [18]，它允许用户通过交互式UI修改来优化他们的查询。

随着神经网络的发展，深度学习技术开始被纳入文本到SQL模型[1]-[3]。最早的其中一种方法Seq2SQL [4]利用了Seq2Seq [19]框架，根据预定义的SQL草图预测适当的列和操作符。

Transformer [20]架构的引入促使了诸如BERT [21]和T5 [22]等预训练语言模型（PLMs）的出现，随后这些模型也被应用于文本到SQL任务[1]-[3]。一个著名的例子是BRIDGE

(a) SEED GPT的结构

(b) SEED DeepSeek的结构

图 3: SEED的结构
[23]，它采用了基于BERT的编码并结合指针生成网络[24]来解码SQL查询。

最近，随着封闭源码LLM（如GPT-4 [25]和Gemini [26]）和开源LLM（如LLaMA [27]和StarCoder [28]）的兴起，大多数最前沿的文本到SQL方法都采用了基于LLM的方法。C3 [29]是一个基于ChatGPT的零样本文本到SQL方法。DINSQL [30]将SQL生成分解为子任务。DAILSQL [31]通过系统实验导出并利用适合文本到SQL的有效提示。MCS-SQL [14]生成多个候选SQL查询，并通过自我一致性[32]机制选择最佳查询。XiYan-SQL [10]、CHASE-SQL [7]和MSc-SQL [33]利用训练好的选择器从多个候选中选择最优SQL查询。CHESS [8]引入了一个单元测试器来验证SQL预测。SENSE [16]和CodeS [15]专注于微调较小的模型以在文本到SQL任务中取得竞争性的表现。E-SQL [13]通过在给定问题上使用自我润色[34]机制来增强SQL生成。

在本文撰写之时，在BIRD排行榜的前30个模型[7]-[17]中，除了一个未发表的方法外，其他都依赖于证据，突显了证据在最近的文本到SQL方法中的影响。

III. 方法论

SEED基于上下文输入的长度采用两种不同的架构： $SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$ 和 $\mathrm{SEED}_{\text {deepseek }}$ 。对于支持长上下文输入的场景，我们使用 $SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$ 架构，如图3a所示，该架构将整个模式作为输入处理。相比之下，在上下文输入容量受限的情况下，我们采用 $\mathrm{SEED}_{\text {deepseek }}$ 架构，如图3b所示，其中模式被总结以保留与问题相关的仅信息。

当使用GPT-4o作为基础模型时，应用图3a中的架构。然而，对于通过API支持最多8,192个token的DeepSeek-R1 [35]，图3b中的架构更为合适。SEED框架由三个关键组件组成：模式总结、样本SQL执行和证据生成。

A. 模式总结

最近的一项研究[11]指出，当利用具有强大推理能力的LLM进行文本到SQL任务时，将模式修剪作为预处理步骤实际上会降低SQL生成的性能。基于这一见解，SEED在生成证据时不修剪模式，而是将整个模式作为LLM的输入。

然而，有时输入的token数量可能超过LLM允许的限制。例如，DeepSeek-R1 [35] API设置了最大token限制为8,192。为了应对这种情况，我们在方法中引入了模式总结。

在生成证据之前，SEED将问题与模式进行比较，并从模式中移除无关信息。此预处理步骤确保了即使对于具有token限制的模型（如DeepSeek-R1），也可以将其作为SEED的基础模型。

B. 样本SQL执行

考虑在没有领域知识的情况下人类生成SQL的过程。在没有领域知识的情况下生成SQL时，他们有时可以通过将问题中的关键字与模式进行比较来推断其含义。然而，在许多情况下，他们需要执行样本SQL查询来检查数据库值并完全理解问题的意图。

例如，考虑一个包含“Fremont”一词的问题。如果不执行查询，不清楚“Fremont”是指县、区还是城市。通常，用户会在确定正确列之前运行样本查询来检查数据库。类似地，SEED通过系统地执行样本SQL查询来生成领域知识。

首先，SEED从问题中提取代表数据库列和值的关键字。然后，将提取的列与其对应的值配对，并为每对生成和执行样本SQL查询。

提取的样本数据如下：无论数据类型如何，都会提取唯一值，并且在字符串类型的情况下，还会使用LIKE操作符和编辑距离额外提取相似值。提取的样本数据用于构建下一步的提示。

C. 证据生成

一旦获得了样本SQL结果，SEED就会生成帮助SQL生成的证据。证据生成提示的结构如下：指令、训练集示例、样本SQL结果、数据库模式和问题。

为了构建有效的少量示例，SEED使用基于相似度的选择从训练集中识别相似的问题。首先，SEED从训练集中识别出与给定查询最相似的问题，然后从同一数据库中检索四个更多的相关问题。我们使用all-mpnet-base-v2 [36]作为嵌入模型进行相似度比较，并使用余弦相似度作为相似度量。

IV. 实验

A. 数据集

BIRD [6]数据集通过整合嘈杂的大规模数据，弥合了文本到SQL研究与实际应用之间的差距。它包含95个数据库（33.4 GB）和37个领域的12,751个文本到SQL对，独特地提供了数据库描述文件和证据。

Spider [5]数据集包括200个数据库、10,181个问题和5,693个复杂SQL查询，涉及JOIN、GROUP BY和EXISTS等高级模式。由11名学生耗时1,000小时创建，确保了多样化的多表查询，以更好地泛化。

B. 评估指标

基于精确SQL匹配评估文本到SQL模型可能导致假阴性，因为不同的查询可能是语义上等价的。为了解决这个问题，BIRD和Spider使用执行准确性（EX），通过比较执行结果而不是语法来评估。此外，BIRD引入了有效效率得分（VES），通过考虑执行时间扩展了EX，奖励更高效的查询更高的分数。

C. 基线方法

为了评估SEED生成的证据的有效性，我们选择了BIRD和Spider排行榜上的最新文本到SQL模型，这些模型在撰写本文时有公开的实现。选定的模型包括CHESS [8]和RSL-SQL [9]，它们代表了排行榜上的最新方法；CodeS [15]，一个微调的文本到SQL模型；DAIL-SQL [31]和C3 [29]，它们体现了上下文学习（ICL）方法。

CHESS: CHESS [8]框架将文本到SQL视为一个多代理系统，包含四个关键组件：信息检索器（IR） - 检索相关的数据库值和描述，模式选择器（SS） - 过滤掉不必要的模式元素，候选生成器（CG）生成多个SQL候选，单元测试器（UT） - 执行单元测试以评估候选SQL查询。此外，CHESS提供了基于约束条件（如计算预算）配置这些代理的指南，使其成为文本到SQL任务的多功能框架。
RSL-SQL: 最近的研究[11]揭示了虽然模式链接通常用于减少噪音和计算开销，但它可能带来潜在风险。为了减轻这些缺点，RSL-SQL [9]的研究人员提出了一种双向模式链接方法。首先，链接完整模式并用来生成初步的SQL查询。然后，提取查询中引用的模式元素。通过结合前向和后向模式链接，RSL-SQL实现了稳健而有效的模式链接过程。
CodeS: CodeS [15]解决了文本到SQL研究中的关键挑战，例如依赖闭源LLM（例如，GPT-4和Gemini），这引发了隐私问题并产生了高昂的API成本。为了克服这些问题，CodeS微调了StarCoder [28]以更好地适应文本到SQL任务。该模型集成了RESDSQL [37]的模式链接方法，并通过BM25索引和最长公共子串方法的组合增强了数据库值的引用。
表IV: BIRD数据集上文本到SQL模型在没有证据时的性能下降及使用SEED后的改善。

	dev EX%				dev VES%
	w/o证据	w/证据	w/ $SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$	w/ $\mathrm{SEED}_{\text {deepseek }}$	w/o证据	w/证据	w/ $SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$	w/ $\mathrm{SEED}_{\text {deepseek }}$
$KaTeX parse error: \hline valid only within array environment$	54.69	63.04 ( $↑8.35\uparrow 8.35$ )	56.26 ( $↑1.57\uparrow 1.57$ )	54.11 ( $↓0.58\downarrow 0.58$ )	56.40	66.64 ( $↑10.24\uparrow 10.24$ )	58.34 ( $↑1.94\uparrow 1.94$ )	55.82 ( $↓0.58\downarrow 0.58$ )
$KaTeX parse error: \hline valid only within array environment$	49.61	60.43 ( $↑10.82\uparrow 10.82$ )	54.82 ( $↑5.21\uparrow 5.21$ )	53.65 ( $↑4.04\uparrow 4.04$ )	51.41	64.67 ( $↑13.26\uparrow 13.26$ )	56.75 ( $↑5.34\uparrow 5.34$ )	55.52 ( $↑4.11\uparrow 4.11$ )
RSL-SQL (GPT-4o)	54.50	65.78 ( $↑11.28\uparrow 11.28$ )	58.28 ( $↑3.78\uparrow 3.78$ )	58.15 ( $↑3.65\uparrow 3.65$ )	56.02	68.31 ( $↑12.29\uparrow 12.29$ )	60.32 ( $↑4.3\uparrow 4.3$ )	64.69 ( $↑8.67\uparrow 8.67$ )
SFT CodeS-15B	44.39	55.35 ( $↑10.96\uparrow 10.96$ )	56.78 ( $↑12.39\uparrow 12.39$ )	57.69 ( $↑13.3\uparrow 13.3$ )	47.22	56.84 ( $↑9.62\uparrow 9.62$ )	58.95 ( $↑11.73\uparrow 11.73$ )	59.33 ( $↑12.11\uparrow 12.11$ )
SFT CodeS-7B	41.92	54.76 ( $↑12.84\uparrow 12.84$ )	56.52 ( $↑14.60\uparrow 14.60$ )	56.58 ( $↑14.66\uparrow 14.66$ )	46.42	57.50 ( $↑11.08\uparrow 11.08$ )	59.65 ( $↑13.23\uparrow 13.23$ )	59.42 ( $↑13.00\uparrow 13.00$ )
DAIL-SQL (GPT-4)	35.46	56.32 ( $↑20.86\uparrow 20.86$ )	51.63 ( $↑16.17\uparrow 16.17$ )	53.19 ( $↑17.73\uparrow 17.73$ )	36.68	57.70 ( $↑21.02\uparrow 21.02$ )	53.58 ( $↑16.90\uparrow 16.90$ )	54.37 ( $↑17.69\uparrow 17.69$ )

表V: SEED在Spider数据集上对文本到SQL模型的性能提升。

	dev EX%		test EX%
	w/o SEED	w/ $SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$	w/o SEED	w/ $SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$
SFT CodeS-15B	85.6	87.3 ( $↑1.7\uparrow 1.7$ )	85.0	86.4 ( $↑1.4\uparrow 1.4$ )
SFT CodeS-7B	86.4	86.8 ( $↑0.4\uparrow 0.4$ )	84.7	86.1 ( $↑1.4\uparrow 1.4$ )
C3 (ChatGPT)	82.0	86.6 ( $↑4.6\uparrow 4.6$ )	80.1	84.0 ( $↑3.9\uparrow 3.9$ )

尽管其参数最多仅为15亿，CodeS的表现优于使用GPT-4的DIN-SQL [30]，显示出其高效性和有效性。
4) DAIL-SQL: 随着文本到SQL上下文学习（ICL）的兴起，DAIL-SQL [31]研究团队强调了系统提示工程的重要性。他们的研究探讨了几个关键方面，包括如何在提示中格式化数据库模式、检索有效的少量示例以及在提示中表示示例。通过优化这些因素，DAIL-SQL通过精心设计的提示策略实现了卓越的SQL生成性能。
5) C3: C3 [29]是一种零样本文本到SQL方法，旨在解决少量方法的局限性，这些方法通常需要超过10,000个token，以及零样本模型相对于微调替代方案的较低性能。该模型包括三个阶段：清晰提示（CP），通过零样本提示指令建立模式链接；提示校准（CH），通过误差分析识别ChatGPT的偏差（例如，过度选择列或检索过多值），并通过提供具体提示（例如，“仅在必要时使用COUNT(*), LEFT JOIN, 或 OR”）减轻这些偏差；一致输出（CO），通过多次运行并应用投票机制减少LLM的内在随机性。

D. 实现细节

$SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$ 包括两个阶段：样本SQL执行和证据生成，不进行模式总结。样本SQL执行阶段使用 gpt-4o-mini，而证据生成阶段使用 gpt-4o。

另一方面， $\mathrm{SEED}_{\text {deepseek }}$ 进行两次模式总结：一次针对与问题对应的数据库，另一次针对训练集示例。 $\mathrm{SEED}_{\text {deepseek }}$ 使用 DeepSeek-R1 [35] 作为基础模型进行所有阶段。

E. 结果

BIRD: 表 IV 展示了 BIRD 中 SQL 生成在三种不同设置下的性能：未提供证据、提供人工注释的证据（来自 BIRD）和提供 SEED 生成的证据。第一个重要观察是，没有人工生成的证据显著降低了所有模型的性能。特别是，在 DAIL-SQL [31] 中观察到最大的性能差距，差异为 $\%$ 。即使差距最小的模型在排除证据时性能也下降了 $\%$ 。这突显了研究环境与实际应用之间的巨大差异，在实际应用中，缺乏证据会严重降低 SQL 生成的性能。

接下来，当比较 SEED 生成的证据与无证据条件时，我们确认了在大多数模型中 EX 和 VES 的提升，有些情况下甚至超过了 BIRD 证据设置的性能。我们观察到 EX 提升高达 $\%$ ，VES 提升高达 $\%$ ，这表明 SEED 不仅提高了准确性，还生成了更高效的查询。这些结果确认了 SEED 生成的证据有助于弥合研究与现实之间的差距，并增强了文本到 SQL 模型的实际可用性。
2) 性能下降分析：然而，我们注意到对于 $CHESSIR+CG+UT\mathrm{CHESS}_{\mathrm{IR}+\mathrm{CG}+\mathrm{UT}}$ [8]， $\mathrm{SEED}_{\text {deepseek }}$ 的表现略差于无证据条件。对于 CodeS [15] 模型， $\mathrm{SEED}_{\text {deepseek }}$ 生成的证据优于 $SEEDgpt\mathrm{SEED}_{\mathrm{gpt}}$ 。然而，对于 $CHESSIR+CG+UT\mathrm{CHESS}_{\mathrm{IR}+\mathrm{CG}+\mathrm{UT}}$ 模型，使用 $\mathrm{SEED}_{\text {deepseek }}$ 证据的结果比根本不使用证据时的性能更低。为了调查这种差异的原因，我们分析了 CHESS 模型和 SEED 生成的证据，得出了以下观察结果：(1) SEED 使用人工生成的 BIRD 证据作为少量示例。然而，它产生的信息
表 VI: BIRD 证据和 SEED deepseek 证据以及修订后的证据示例

BIRD 证据	Magnet schools 或 offer a magnet program 意味着 Magnet = 1
SEED deepseek	SAT 考试参与者超过 500 指的是 ‘satscores’. ‘NumTstTakr’ $> 500$ ; magnet schools 或 offer a magnet program 指的是 ‘schools’. ‘Magnet’ $= 1$ ; join on ‘satscores’. ‘cds’ = ‘schools’. ‘CDSCode’
SEED 修订版	SAT 考试参与者超过 500 指的是 ‘satscores’. ‘NumTstTakr’ $> 500$ ; magnet schools 或 offer a magnet program 指的是 ‘schools’. ‘Magnet’ $= 1$

表 VII: SEED 在 Spider 数据集上对文本到 SQL 模型的性能提升。

	dev EX%			dev VES%
	w/o SEED	w/ SEED deepseek	w/ SEED 修订版	w/o SEED	w/ SEED deepseek	w/ SEED 修订版
CHESS $}_{\text {IR+CG+UT }}$	54.69	54.11 ( $↓0.58\downarrow 0.58$ )	55.48 ( $↑0.79\uparrow 0.79$ )	56.40	55.82 ( $↓0.58\downarrow 0.58$ )	57.39 ( $↑0.99\uparrow 0.99$ )
SFT CodeS-15B	44.39	57.69 ( $↑13.30\uparrow 13.30$ )	56.39 ( $↑12.00\uparrow 12.00$ )	47.22	59.33 ( $↑12.11\uparrow 12.11$ )	58.44 ( $↑11.22\uparrow 11.22$ )
SFT CodeS-7B	41.92	56.58 ( $↑14.66\uparrow 14.66$ )	55.80 ( $↑13.88\uparrow 13.88$ )	46.42	59.42 ( $↑13.00\uparrow 13.00$ )	58.42 ( $↑12.00\uparrow 12.00$ )

并没有出现在示例中或略微改变了证据的格式。特别是，如表VI所示，最显著的区别是SEED提供了关于连接的额外信息。(2) 早期的研究，如CodeS和DAIL-SQL [31]，采用了简单的串联证据和问题的方法。相反，像CHESS这样的较新模型在每个代理中多次主动结合证据，而CHESS的提示不仅包括如何利用证据的直接指南，还明确指定了证据中包含的信息类型。

基于这些观察，我们假设像CHESS这样的较新模型通过提示工程优化了人工生成的BIRD证据的格式。为了验证这一假设，我们使用DeepSeek-V3 [38]去除了连接相关信息，这是SEED的最大差异，修订了SEED证据。然后，我们使用修订后的SEED（SEED修订版）证据评估了CHESS和CodeS的性能。如表VII所示，当使用SEED修订版而非SEED deepseek时，CHESS $}_{\text {IR+CG+UT }}$ 的EX提高了 $\%$ ，而CodeS的性能则下降了 $\%$ 。这证实了我们的假设，即修改SEED证据以类似于人工生成的证据可以提高CHESS $}_{\text {IR+CG+UT }}$ 的性能，同时降低CodeS的性能。这些发现突出了未来研究在基于模型如何利用证据来优化证据格式方面的必要性。
3) Spider: 为了进一步验证SEED的稳健性，我们在Spider数据集上进行了实验。我们比较了两种情况：未提供证据，提供SEED生成的证据。为了评估，我们选择了一个微调模型（CodeS [15]）和一个基于ICL的模型（C3 [29]）。由于Spider没有数据库描述文件，我们使用DeepSeek-V3 [38]生成了它们。表V中的结果显示，所有模型的性能都有所提高，证实了SEED生成的证据在不同的数据集和方法中提高了SQL生成的性能。

V. 结论

在这项研究中，我们确认了对人工整理证据的依赖在学术研究和实际应用之间造成了差距。为了解决这个限制，我们提出了SEED，这是一个无需人工干预即可自主生成证据的系统。通过实验，我们证明了SEED在没有证据的现实场景中显著提升了文本到SQL方法的性能。

通过弥合文本到SQL系统中学术研究与实际部署之间的差距，我们的工作有助于使现有和未来的文本到SQL方法在现实场景中更具适用性。我们相信，我们的研究结果将引导未来的研究朝着更实用和可扩展的解决方案方向发展，最终促进文本到SQL在实际应用中的广泛应用。

参考文献

[1] B. Qin, B. Hui, L. Wang, M. Yang, J. Li, B. Li, R. Geng, R. Cao, J. Sun, L. Si, F. Huang, 和 Y. Li, “A survey on text-to-sql parsing: Concepts, methods, and future directions,” 2022. [Online]. Available: https://arxiv.org/abs/2208.13629
[2] L. Shi, Z. Tang, N. Zhang, X. Zhang, 和 Z. Yang, “A survey on employing large language models for text-to-sql tasks,” 2024. [Online]. Available: https://arxiv.org/abs/2407.15186
[3] Z. Hong, Z. Yuan, Q. Zhang, H. Chen, J. Dong, F. Huang, 和 X. Huang, “Next-generation database interfaces: A survey of llm-based text-to-sql,” 2024. [Online]. Available: https://arxiv.org/abs/2406.08426
[4] V. Zhong, C. Xiong, 和 R. Socher, “Seq2sql: Generating structured queries from natural language using reinforcement learning,” 2017. [Online]. Available: https://arxiv.org/abs/1709.00103
[5] T. Yu, R. Zhang, K. Yang, M. Yasunaga, D. Wang, Z. Li, J. Ma, I. Li, Q. Yao, S. Roman, Z. Zhang, 和 D. R. Radev, “Spider: A large-scale human-labeled dataset for complex and cross-domain semantic parsing and text-to-sql task,” in 2018 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING (EMNLP 2018). Google; Facebook; Bloomberg; Salesforce; Apple; Amazon; Baidu; Grammarly; Naver Labs Europe; FWO; KU Leuven, Dept Comp Sci; CVTE; Ebay; Microsoft; Naver Line; Oracle; Polya; Huawei; Duolingo; Figure Eight; Nuance, 2018, pp. 3911-3921, conference on Empirical Methods in Natural Language Processing (EMNLP), Brussels, BELGIUM, OCT 31-NOV 04, 2018.
[6] J. Li, B. Hui, G. Qu, J. Yang, B. Li, B. Li, B. Wang, B. Qin, R. Geng, N. Huo, X. Zhou, M. Chenhao, G. Li, K. Chang, F. Huang, R. Cheng, 和 Y. Li, “Can llm already serve as a database interface? a big bench for large-scale database grounded text-to-sqls,” in Advances in Neural Information Processing Systems, A. Oh,
T. Naumann, A. Globerson, K. Saenko, M. Hardt, 和 S. Levine, Eds., vol. 36. Curran Associates, Inc., 2023, pp. 42 330-42 357. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/ 2023/file/83fc8fab1710363050bbd1d4b8cc0021-Paper-Datasets_and_ Benchmarks.pdf
[7] M. Pourreza, H. Li, R. Sun, Y. Chung, S. Talaei, G. T. Kakkar, Y. Gan, A. Saberi, F. Orcan, 和 S. O. Arik, “Chase-sql: Multi-path reasoning and preference optimized candidate selection in text-to-sql,” 2024. [Online]. Available: https://arxiv.org/abs/2410.01943
[8] S. Talaei, M. Pourreza, Y.-C. Chang, A. Mirhoseini, 和 A. Saberi, “Chess: Contextual harnessing for efficient sql synthesis,” 2024. [Online]. Available: https://arxiv.org/abs/2405.16755
[9] Z. Cao, Y. Zheng, Z. Fan, X. Zhang, W. Chen, 和 X. Bai, “Rsl-sql: Robust schema linking in text-to-sql generation,” 2024. [Online]. Available: https://arxiv.org/abs/2411.00073
[10] Y. Gao, Y. Liu, X. Li, X. Shi, Y. Zhu, Y. Wang, S. Li, W. Li, Y. Hong, Z. Luo, J. Gao, L. Mou, 和 Y. Li, “Xiyan-sql: A multi-generator ensemble framework for text-to-sql,” 2024. [Online]. Available: https://arxiv.org/abs/2411.08599
[11] K. Maamari, F. Abubaker, D. Jaroslawicz, 和 A. Mhedhbi, “The death of schema linking? text-to-sql in the age of well-reasoned language models,” 2024. [Online]. Available: https://arxiv.org/abs/2408.07702
[12] T. Ren, Y. Fan, Z. He, R. Huang, J. Dai, C. Huang, Y. Jing, K. Zhang, Y. Yang, 和 X. S. Wang, “Purple: Making a large language model a better sql writer,” in 2024 IEEE 40th International Conference on Data Engineering (ICDE), 2024, pp. 15-28.
[13] H. A. Caferoğlu 和 Özgür Ulusoy, “E-sql: Direct schema linking via question enrichment in text-to-sql,” 2024. [Online]. Available: https://arxiv.org/abs/2409.16751
[14] D. Lee, C. Park, J. Kim, 和 H. Park, “Mcs-sql: Leveraging multiple prompts and multiple-choice selection for text-to-sql generation,” 2024. [Online]. Available: https://arxiv.org/abs/2405.07467
[15] H. Li, J. Zhang, H. Liu, J. Fan, X. Zhang, J. Zhu, R. Wei, H. Pan, C. Li, 和 H. Chen, “Codes: Towards building open-source language models for text-to-sql,” Proc. ACM Manag. Data, vol. 2, no. 3, May 2024. [Online]. Available: https://doi.org/10.1145/3654930
[16] J. Yang, B. Hui, M. Yang, J. Yang, J. Lin, 和 C. Zhou, “Synthesizing text-to-SQL data from weak and strong LLMs,” in Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), L.-W. Ku, A. Martins, 和 V. Srikumar, Eds. Bangkok, Thailand: Association for Computational Linguistics, Aug. 2024, pp. 7864-7875. [Online]. Available: https://aclanthology.org/2024.acl-long.425/
[17] B. Li, Y. Luo, C. Chai, G. Li, 和 N. Tang, “The dawn of natural language to sql: Are we fully ready?” Proc. VLDB Endow., vol. 17, no. 11, p. 3318-3331, Aug. 2024. [Online]. Available: https://doi.org/10.14778/3681954.3682003
[18] F. Li 和 H. V. Jagadish, “Nalir: an interactive natural language interface for querying relational databases,” in Proceedings of the 2014 ACM SIGMOD International Conference on Management of Data, ser. SIGMOD '14. New York, NY, USA: Association for Computing Machinery, 2014, p. 709-712. [Online]. Available: https://doi.org/10.1145/2588555.2594519
[19] I. Sutskever, “Sequence to sequence learning with neural networks,” arXiv preprint arXiv:1409.3215, 2014.
[20] A. Vaswani, “Attention is all you need,” Advances in Neural Information Processing Systems, 2017.
[21] Kenton, J. Devlin, M.-W. Chang, Toutanova, 和 L. Kristina, “Bert: Pretraining of deep bidirectional transformers for language understanding,” in Proceedings of naacL-HLT, vol. 1, no. 2. Minneapolis, Minnesota, 2019.
[22] Raffel, Colin, Shazeer, Noam, Roberts, 和 e. a. Adam, “Exploring the limits of transfer learning with a unified text-to-text transformer,” Journal of machine learning research, vol. 21, no. 140, pp. 1-67, 2020.
[23] X. V. Lin, R. Socher, 和 C. Xiong, “Bridging textual and tabular data for cross-domain text-to-SQL semantic parsing,” in Findings of the Association for Computational Linguistics: EMNLP 2020, T. Cohn, Y. He, 和 Y. Liu, Eds. Online: Association for Computational Linguistics, Nov. 2020, pp. 4870-4888. [Online]. Available: https://aclanthology.org/2020.findings-emnlp. 438/
[24] A. See, P. J. Liu, 和 C. D. Manning, “Get to the point: Summarization with pointer-generator networks,” in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), R. Barzilay 和 M.-Y. Kan, Eds. Vancouver, Canada:

Association for Computational Linguistics, Jul. 2017, pp. 1073-1083. [Online]. Available: https://aclanthology.org/P17-1099/
[25] OpenAI, J. Achiam, S. Adler, S. Agarwal, L. Ahmad, 和 e. a. Ilge Akkaya, “Gpt-4 technical report,” 2024. [Online]. Available: https://arxiv.org/abs/2303.08774
[26] G. Team, R. Anil, S. Borgeaud, J.-B. Alayrac, J. Yu, 和 e. a. Radu Soricut, “Gemini: A family of highly capable multimodal models,” 2024. [Online]. Available: https://arxiv.org/abs/2312.11805
[27] H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi, 和 e. a. Yasmine Babaei, “Llama 2: Open foundation and fine-tuned chat models,” 2023. [Online]. Available: https://arxiv.org/abs/2307.09288
[28] R. Li, L. B. Allal, Y. Zi, N. Muennighoff, D. Kocetkov, 和 e. a. Chenghao Mou, “Starcoder: may the source be with you!” 2023. [Online]. Available: https://arxiv.org/abs/2305.06161
[29] X. Dong, C. Zhang, Y. Ge, Y. Mao, Y. Gao, lu Chen, J. Lin, 和 D. Lou, “C3: Zero-shot text-to-sql with chatgpt,” 2023. [Online]. Available: https://arxiv.org/abs/2307.07306
[30] M. Pourreza 和 D. Raitez, “Din-sql: Decomposed in-context learning of text-to-sql with self-correction,” in ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 36 (NEURIPS 2023), ser. Advances in Neural Information Processing Systems, A. Oh, T. Neumann, A. Globerson, K. Saenko, M. Hardt, 和 S. Levine, Eds., 2023, 37th Conference on Neural Information Processing Systems (NeurIPS), New Orleans, LA, DEC 10-16, 2023.
[31] D. Gao, H. Wang, Y. Li, X. Sun, Y. Qian, B. Ding, 和 J. Zhou, “Text-to-sql empowered by large language models: A benchmark evaluation,” PROCEEDINGS OF THE VLDB ENDOWMENT, vol. 17, no. 5, pp. 1132-1145, JAN 2024.
[32] X. Wang, J. Wei, D. Schuurmans, Q. V. Le, E. H. Chi, S. Narang, A. Chowdhery, 和 D. Zhou, “Self-consistency improves chain of thought reasoning in language models,” in ICLR 2023, 2023. [Online]. Available: https://arxiv.org/abs/2203.11171
[33] S. K. Gorti, I. Gofman, Z. Liu, J. Wu, N. Vouitsis, G. Yu, J. C. Cresswell, 和 R. Hosseinzadeh, “Msc-sql: Multi-sample critiquing small language models for text-to-sql translation,” 2024. [Online]. Available: https://arxiv.org/abs/2410.12916
[34] Z. Xi, S. Jin, Y. Zhou, R. Zheng, S. Gao, J. Liu, T. Gui, Q. Zhang, 和 X. Huang, “Self-Polish: Enhance reasoning in large language models via problem refinement,” in Findings of the Association for Computational Linguistics: EMNLP 2023, H. Bouamor, J. Pino, 和 K. Bali, Eds. Singapore: Association for Computational Linguistics, Dec. 2023, pp. 11 383-11 406. [Online]. Available: https://aclanthology.org/2023.findings-emnlp. 762/
[35] Guo, Daya, Yang, Dejian, Zhang, 和 e. a. Haowei, “Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning,” arXiv preprint arXiv:2501.12948, 2025.
[36] K. Song, X. Tan, T. Qin, J. Lu, 和 T.-Y. Liu, “Mpnet: Masked and permuted pre-training for language understanding,” in Advances in Neural Information Processing Systems, H. Larochelle, M. Ranzato, R. Hadsell, M. Balcan, 和 H. Lin, Eds., vol. 33. Curran Associates, Inc., 2020, pp. 16 857-16 867. [Online]. Available: https://proceedings.neurips.cc/paper_files/paper/ 2020/file/c3a690be93aa602ee2dc0ccab5b7b67e-Paper.pdf
[37] H. Li, J. Zhang, C. Li, 和 H. Chen, “Resdsql: decoupling schema linking and skeleton parsing for text-to-sql,” in Proceedings of the Thirty-Seventh AAAI Conference on Artificial Intelligence and Thirty-Fifth Conference on Innovative Applications of Artificial Intelligence and Thirteenth Symposium on Educational Advances in Artificial Intelligence, ser. AAAI’23/IAAI’23/EAAI’23. AAAI Press, 2023. [Online]. Available: https://doi.org/10.1609/aaai.v37i11.26535
[38] DeepSeek-AI, A. Liu, B. Feng, B. Xue, B. Wang, 和 e. a. Bochao Wu, “Deepseek-v3 technical report,” 2024. [Online]. Available: https://arxiv.org/abs/2412.19437

参考论文：https://arxiv.org/pdf/2506.07423