基于 RAG 的 Text2SQL 全过程的 Python 实现详解，结合 LangChain 框架实现自然语言到 SQL 的转换

朴拙数据交易猿

已于 2025-04-26 15:15:30 修改

阅读量786

点赞数 9

CC 4.0 BY-SA版权

文章标签： python langchain sql

于 2025-04-26 13:49:24 首次发布

本文链接：https://blog.csdn.net/weixin_45934622/article/details/147531290

什么是RAG

一、核心流程：三阶段协同
RAG的核心流程分为检索（Retrieval）、增强（Augmentation）、生成（Generation）三个阶段，形成“检索→知识整合→生成”的闭环。

1. 检索（Retrieval）
• 目标：从外部知识库中定位与用户查询相关的信息片段。

• 技术实现：

• 向量化处理：使用嵌入模型（如BERT、OpenAI Embedding）将用户查询和文档转化为向量表示，便于相似性匹配。

• 相似性检索：通过向量数据库（如FAISS、Pinecone）计算向量间的余弦相似度，返回Top-K相关文档。

• 典型场景：在医疗领域，用户输入症状描述时，系统检索最新医学文献中的相关病例和诊疗指南。

2. 增强（Augmentation）
• 目标：对检索结果进行筛选、排序和上下文融合，提升生成依据的质量。

• 关键操作：

• 重排序（Reranking）：利用BM25、TF-IDF等传统算法或基于BERT的深度学习模型，对初步检索结果二次排序，过滤噪声数据。

• 上下文拼接：将高相关性文档片段与用户查询拼接，形成生成模型的输入提示（Prompt）。

• 案例：在法律咨询中，系统通过增强阶段整合多个相似案例的判决依据，形成全面参考依据。

3. 生成（Generation）
• 目标：基于增强后的上下文生成自然语言回答。

• 技术实现：

• 生成模型调用：使用GPT-4、Claude等大型语言模型，将增强后的提示输入模型进行文本生成。

• 输出控制：通过温度参数（Temperature）和Top-P采样平衡回答的创造性与准确性。

• 示例：在教育场景中，学生提问历史事件时，生成器结合检索到的史料生成带时间线的解释性回答。

二、高级流程优化
1. 检索前优化（Pre-Retrieval）
• 查询改写：使用LLM对用户原始查询进行语义扩展或纠错（如将“苹果新品”改写为“iPhone 15发布会”），提升检索精度。

• 元数据过滤：结合文档的发布时间、作者权威性等元数据筛选候选集，适用于新闻、科研等时效敏感场景。

2. 模块化扩展（Modular RAG）
• 自适应检索：根据生成模型的反馈动态调整检索策略。例如，首轮生成答案置信度低时触发二次检索。

• 多跳检索（Multi-hop）：通过迭代检索解决复杂问题。如回答“量子计算对气候变化的影响”，需先检索“量子计算原理”再关联“气候模型优化”文档。

三、多模态流程扩展
多模态RAG将处理对象从文本扩展到图像、音视频等数据类型，流程新增以下环节：

跨模态对齐：使用CLIP等模型对齐文本与图像特征，实现“以文搜图”。
多源增强：同时整合文本描述、图像标签、音频转写文本等多模态上下文。
混合生成：生成器输出包含图文混排内容，如产品说明中嵌入检索到的3D模型截图。

应用案例：在电商场景中，用户询问“适合登山的外套”，系统检索商品图文详情并生成带产品图的购买建议。

四、流程优势与挑战

维度	优势	挑战
知识时效性	通过更新知识库实现即时知识同步，无需重新训练模型	海量知识库的存储与检索效率问题
生成可靠性	答案直接来源于可信知识库，减少模型幻觉	检索噪声可能导致生成偏差（如过时法规被误用）
应用灵活性	支持垂直领域定制（如医疗、法律专用知识库）	多模态数据处理需复杂的技术栈支持

以下是基于 RAG 的 Text2SQL 全过程的 Python 实现详解，结合 LangChain 框架实现自然语言到 SQL 的转换：

以下是关于RAG（检索增强生成）技术流程的详细解析，结合其核心流程、优化策略及多模态扩展：

一、环境准备

# 安装核心依赖库
!pip install langchain langchain-community langchain-openai sqlalchemy

二、数据库连接配置

from langchain_community.utilities import SQLDatabase
from sqlalchemy import create_engine

# 连接 SQLite 数据库（示例）
db = SQLDatabase.from_uri("sqlite:///sales.db")

# 查看数据库 Schema
print(db.table_info)  # 输出表结构及样例数据

三、RAG-Text2SQL 核心实现

初始化大语言模型

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(
    model_name="gpt-4-turbo",
    temperature=0,
    api_key="YOUR_API_KEY"
)

构建 RAG 增强的 SQL 生成链

from langchain.chains import create_sql_query_chain
from langchain.chains.llm import LLMChain
from langchain.prompts import PromptTemplate

# 自定义 RAG 提示模板
RAG_PROMPT = """
作为 SQL 专家，请根据数据库 Schema 生成准确查询：
Schema: 
{table_info}

历史相似查询示例：
{history_queries}

用户问题：{question}
生成的 SQL 查询：
"""

rag_prompt = PromptTemplate(
    template=RAG_PROMPT,
    input_variables=["question", "table_info", "history_queries"]
)

# 创建 RAG-SQL 链
sql_chain = create_sql_query_chain(
    llm=llm,
    db=db,
    prompt=rag_prompt
)

检索增强模块实现

from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

# 创建检索器（存储历史 SQL 查询）
history_queries = [
    ("查询销售额超过 100 万的产品", "SELECT product FROM sales WHERE amount > 1000000"),
    ("统计各城市客户数量", "SELECT city, COUNT(*) FROM customers GROUP BY city")
]

embeddings = OpenAIEmbeddings()
vector_store = FAISS.from_texts(
    [f"Q: {q[0]}\nA: {q[1]}" for q in history_queries],
    embeddings
)

def retrieve_context(question: str) -> str:
    docs = vector_store.similarity_search(question, k=2)
    return "\n".join([doc.page_content for doc in docs])

四、完整执行流程

def text2sql_pipeline(question: str) -> dict:
    # 1. 检索增强
    context = retrieve_context(question)
    
    # 2. 生成 SQL
    sql_query = sql_chain.invoke({
        "question": question,
        "history_queries": context,
        "table_info": db.table_info
    })
    
    # 3. 执行验证
    try:
        result = db.run(sql_query)
        return {"sql": sql_query, "result": result}
    except Exception as e:
        return {"error": f"SQL 执行错误: {str(e)}"}

# 示例执行
response = text2sql_pipeline("列出 2024 年销售额前 5 的产品")
print(response)

五、关键实现细节说明

RAG 增强机制
• 通过向量检索历史 SQL 查询，为 LLM 提供上下文参考

• 动态注入数据库 Schema（包含表结构、字段类型）
LangChain 特性应用
• 使用 SQLDatabaseChain 处理数据库连接和查询验证

• 支持多表 JOIN 查询的自动识别（通过 Schema 中的外键关系）
错误处理策略
• 通过 try-except 捕获 SQL 语法错误

• 可扩展添加自动修正模块（基于错误信息重新生成查询）

六、优化建议

性能优化

# 启用查询缓存
from langchain.cache import SQLAlchemyCache
import langchain
langchain.llm_cache = SQLAlchemyCache()

准确性提升
• 添加 Schema 描述注释到提示词

• 实现多步推理机制（先识别实体，再生成查询）

可视化扩展

# 集成结果可视化（需安装 matplotlib）
import matplotlib.pyplot as plt

def visualize_result(result):
    df = pd.DataFrame(eval(result["result"]))
    df.plot(kind="bar")
    plt.show()