NL2SQL-BUGs：用于检测NL2SQL翻译中语义错误的基准_NL2SQL未正确生成sql后续策略资源-CSDN下载

NL2SQL

164 浏览量 2025-03-27 21:08:54 上传评论收藏 1.99MB DOCX 举报

资源推荐

资源详情

资源评论

原论文：https://arxiv.org/pdf/2503.11984

NL2SQL-

BUGs：用于检测NL2SQL翻译中语义错误的基准

刘昕宇，沈书钰，李博岩，唐楠，罗雨濛*

摘要

自然语言到SQL（即

NL2SQL）翻译对于实现数据库访问的民主化至关重要，但即使是最先进的模型也经常生

成语义不正确的 SQL 查询，阻碍了这些技术被数据库供应商广泛采用。虽然现有的

NL2SQL 基准主要关注正确查询翻译，我们认为一个专门用于识别 NL2SQL

翻译中常见错误的基准同样重要，因为准确检测这些错误是任何后续校正的前提——

无论是由人类还是模型完成。为了解决这一空白，我们提出了

，这是第一个专门用于检测和分类 NL2SQL

翻译中语义错误的基准。采用了两级分类法系统地对语义错误进行分类，涵盖了9个主要

类别和31个子类别。该基准包含2,018个专家注释的实例，每个实例包含一个自然语言查

询、数据库模式和 SQL

查询，并对语义不正确的查询进行了详细的错误注释。通过全面的实验，我们证明当前的

大语言模型在语义错误检测方面存在显著限制，平均检测准确率仅为75.16%。尽管如此

，这些模型成功检测到了广泛使用的 NL2SQL 数据集 BIRD 中的 106 个错误（占 6.91%

），这些错误之前是基准中的标注错误。这突显了语义错误检测在 NL2SQL

系统中的重要性。

NL2SQL模型生成的错误翻译进行分析，我们发现Spider中的170个错误中有168个（

98.8% ）以及BIRD中的667个错误中有658个（ 98.7%

）是语义错误。这一压倒性的比例凸显了语义错误在NL2SQL系统中的关键作用。

用于

NL2SQL

的语义错误检测。

鉴于语义错误的微妙性质，它们更难以检测，因为它们可能导致错误输出而没有任何可见

的执行错误。这使得语义错误检测尤为重要，因为准确识别这些错误是任何后续校正的

前提

。目前，检测这些错误通常由专家手动完成。然而，为了扩展这一过程并减少对人工的依

赖，我们需要能够协助甚至替代专家检测这些错误的模型。正如现代DBMS包含SQL语法

检查器以检测和纠正语法错误一样， NL2SQL系统需要类似的机制——

一个NL2SQL语义检测器——来识别生成的SQL查询中的语义错误。如图 2

所示，NL2SQL语义错误检测的任务旨在检测自然语言查询、生成的SQL查询和数据库模

式之间的语义差异。一旦检测到语义错误，可以通过触发错误警报以供进一步检查、修订

查询生成过程或应用自动校正机制来纠正这些差异。

为了评估NL2SQL语义错误检测的能力，我们介绍了

，这是第一个专为识别和分类NL2SQL翻译中的语义错误而设计的基准。

采用两级分类法对语义错误进行分类，涵盖

个主要类别和许多子类别。

包含2,018个专家注释的实例。每个实例包含一个自然语言查询、数据库模式和相应的SQ

L查询，以及对语义不正确的SQL查询的详细错误注释。

我们做出了以下贡献。

我们正式定义了NL2SQL翻译中语义错误检测的任务（见第 2.1 节）。

我们介绍了一个全面的两级分类法，将NL2SQL语义错误分为9个主要类别和31个子类别

（见第 3 节）。

我们展示了

，这是第一个专为评估NL2SQL语义错误检测能力而设计的基准。该数据集包含2,018个

专家注释的实例，每个实例包含一个自然语言查询、数据库模式和SQL查询，以及对语

义不正确的SQL查询的详细错误注释。该基准可在 https://nl2sql-bugs.github.io/

公开获取（见第 4 节）。

我们利用中的错误分类法和演示案例，提示GPT-4o检测广泛使用的NL2SQL基准——

Spider和BIRD中的语义错误。我们的评估显示，Spider中有16个SQL查询（开发集的

1.55% ）和BIRD中有 106 个SQL查询（开发集的 6.91%

）包含以前未被识别的语义错误（见第 2.2 节）。

我们在基准上评估了各种基于LLM的解决方案，以评估其检测NL2SQL语义错误的能力。

虽然一些方法在特定错误类型（例如与属性或表相关的错误）上的表现较为合理，但整体

性能仍然有限。这些发现强调了对更稳健的语义错误检测方法进行进一步研究的必要性（

见第 5 节）。

我们认为将在奠定NL2SQL技术的实际应用基础方面发挥重要作用。我们呼吁跨社区合作

：数据库工程师、数据挖掘从业者和NLP研究人员应将形式逻辑融入训练范式，促进可部

署的NL2SQL系统的开发。

2 问题及实际案例

2.1 问题表述

给定一个三元组（NL，DB，SQL），其中包含自然语言问题（NL）、关系数据库（DB

）和由模型生成或人类提供的SQL查询（SQL），语义错误检测的任务旨在验证SQL是

否相对于DB在语义上等同于NL。语义错误有两种类型：（1）

错误结果

：查询返回的结果与自然语言查询的预期意图不符。（2）

特定实例上的正确结果

：查询可能产生正确结果，但这仅适用于当前数据库实例；结果可能不适用于所有可能的

数据库实例。

形式上，该任务可以定义为一个函数

\(\mathcal{F}\)，它将三元组映射到二进制决策：\(\mathcal{F}(\text{{\sf NL}}, \text{{\sf

DB}}, \text{{\sf SQL}}) \rightarrow \{True, Fasle\}\)，其中 \(True\)（分别 \(False\)）表示

\({\sf SQL}\) 在语义上相对于给定的问题 \({\sf NL}\) 是正确的（分别错误的）。

如果检测到语义错误，即 \(\mathcal{F}({\sf NL}, {\sf DB}, {\sf SQL}) =

False\)，下一步任务是对语义错误进行分类。这可以形式化定义如下：

给定一个三元组（NL，DB，SQL），其中包含自然语言问题（NL）、关系数据库（DB

）和生成的SQL查询（SQL），当SQL未能捕捉到NL相对于DB的意图时，语义错误分类

的目标是识别具体的语义错误类别：\(\mathcal{F}(\text{{\sf NL}}, \text{{\sf DB}}, \text{{\sf

SQL}}) \rightarrow T\)，其中 \(T\) 是预定义的语义错误类型集合，\(\mathcal{F}({\sf NL},

{\sf DB}, {\sf SQL}) = t \in T\) 表示在SQL查询中识别出的具体语义错误类型。

剩余22页未读，继续阅读

评论收藏

内容反馈

Paper易论

粉丝: 5347

NL2SQL-BUGs：用于检测NL2SQL翻译中语义错误的基准

pa193-bugs:用于运行PA193 FI MUNI课程的错误代码的代码库

unigui0.83.5.820

kwin-bugs:演示 kwin 脚本错误的脚本

kernel-bugs:上游内核错误跟踪项目

sassdoc-bugs:Sassdoc 错误

谷歌地图 delphi 封装库 2013 0.1.9 全面支持google maps api

web-bugs:PHP Bugtracking系统

ie-css-bugs:IE CSS 错误

seeding-realistic-concurrency-bugs:从 code.google.compseeding-realistic-concurrency-bugs 自动导出

Ants-and-bugs:2D 捕食者-猎物模拟

boos-and-bugs:我为优达学城前端纳米学位的游戏项目实施

save-the-bugs:HTML5画布游戏

find-sec-bugs-demos：存储库，展示具有各种技术的各种配置配方

POJ1038--Bugs Integrated

evado-app-bugs:基于Evado框架的错误跟踪系统

find-sec-bugs：SpotBugs插件，用于Java Web应用程序和Android应用程序的安全审核。 （还与Kotlin，Groovy和Scala项目一起工作）

spotbugs-bugs:https

MineClone2-Bugs:MineClone 2的错误跟踪器存档（不允许发布新帖子）

Fk-Bugs:FK Android与此

Doodle-Bugs：一款益智游戏，用户必须使用行为异常的绘画工具来完成绘画挑战

bugsnag-android：用于Android应用程序的Bugsnag崩溃监控和报告工具

ignite-node-fixing-bugs:Rocketseat Ignite项目习惯于在NodeJS中使用Jest进行测试以修复错误

ist的matlab代码-Bugs:PietSmiet.de的错误跟踪存储库

IE6-bugs:IE6 bugs汇总（如果你有新的问题，请补充） 最近发现项目方向越来越不对了，干脆用来放置浏览器的兼容性内容吧！

Perl-Format-String-Bugs.zip_Bugs

poj1038--Bugs.rar_Bugs_poj 1038 _poj10_poj1038

node-red-contrib-facial-recognition:为面部检测和面部识别提供节点红色节点

oxygen-bugs-and-features:氧气的错误报告和功能要求

ac-bugs-v2：测试故障文件

强化学习--DQN 变种

SAS的学习资料，比较全面

最新资源

find-sec-bugs：SpotBugs插件，用于Java Web应用程序和Android应用程序的安全审核。（还与Kotlin，Groovy和Scala项目一起工作）

IE6-bugs:IE6 bugs汇总（如果你有新的问题，请补充）最近发现项目方向越来越不对了，干脆用来放置浏览器的兼容性内容吧！