当前,Agentic RAG(Retrieval-Augmented Generation)正逐步成为大型语言模型访问外部知识的关键路径。但在真实实践中,搜索智能体的强化学习训练并未展现出预期的稳定优势。一方面,部分方法优化的目标与真实下游需求存在偏离,另一方面,搜索器与生成器间的耦合也影响了泛化与部署效率。
我们(UIUC & Amazon)提出的 s3(Search-Select-Serve)是一种训练效率极高、结构松耦合、生成效果导向的 RL 范式。该方法使用名为 Gain Beyond RAG (GBR) 的奖励函数,衡量搜索器是否真的为生成带来了有效提升。实验表明,s3 在使用仅 2.4k 训练样本的情况下,便在多个领域问答任务中超越了数据规模大百倍的强基线(如 Search-R1、DeepRetrieval)。
- 论文标题:s3: You Don’t Need That Much Data to Train a Search Agent via RL
- 论文链接:https://arxiv.org/pdf/2505.14146
- 代码仓库:https://github.com/pat-jj/s3
研究动机
RAG 的发展轨迹:从静态检索到 Agentic 策略
我们将 RAG 系统的发展分为三阶段:
1.Classic RAG:使用固定 query、BM25 等 retriever,生成器对结果无反馈;
2.Pre-RL-Zero Active RAG:引入多轮 query 更新,如 IRCoT、Self-RAG 等,部分通过 prompt 引导 LLM 检索新信息。Self-RAG 进一步通过蒸馏大型模型的行为,训练小模型模拟多轮搜索行为;
3.RL-Zero 阶段:强化学习开始用于驱动检索行为,代表方法如:
- DeepRetrieval:以 Recall、NDCG 等搜索指标为优化目标,专注于检索器本身的能力;
- Search-R1:将检索与生成联合建模,以最终答案是否 Exact Match 作为强化信号,优化整合式的搜索 - 生成策略。
尽管 RL 方法在思路上更具主动性与交互性,但在实际落地中仍面临诸多挑战。
当前 RL-based Agentic RAG 落地表现不佳的原因
我们对当前 Agentic RAG 方案效果不稳定、训练难、迁移能力弱的原因,归纳为三点:
1. 优化目标偏离真实下游任务
Search-R1 等方法采用 Exact Match (EM) 作为主要奖励指标,即答案是否与参考答案字面一致。这一指标过于苛刻、对语义变体不敏感,在训练初期信号稀疏,容易导致模型**优化****「答案 token 对齐」**而非搜索行为本身。
例如,对于问题「美国第 44 任总统是谁?」,
- 回答「Barack Obama」:✅
- 回答「The 44th president was Barack Obama.」:❌(EM=0)
这种不合理的信号会诱导模型在生成阶段做格式补偿,从而无法反映搜索策略本身是否有效。
2. 检索与生成耦合,干扰搜索优化
将生成纳入训练目标(如 Search-R1),虽然可以提升整体答案准确率,但也会带来问题:
- 无法判断性能提升究竟来自「更好的搜索」,还是「更强的语言生成对齐能力」;
- 对 LLM 参数依赖强,不利于模型迁移或集成;
- 微调大模型成本高,限制了训练效率和模块替换的灵活性。
3. 现有评价标准无法准确衡量搜索贡献
EM、span match 等传统 QA 指标主要关注输出结果,与搜索质量关联有限。而 search-oriented 指标(如 Recall@K)虽可度量 retriever 性能,却无法体现这些信息是否真的被模型「用好」。这些偏差直接导致现有 RL Agentic RAG 方法在评估、训练和泛化上均存在瓶颈。
s3 - 专注搜索效果优化的 search agent RL 训练框架
s3 的出发点很简单:
如果我们真正关心的是「搜索提升了生成效果」,那就应该只训练搜索器、冻结生成器,并以生成结果提升为奖励。
这便是「Gain Beyond RAG(GBR)」的定义:
即:用 s3 搜索到的上下文喂给 Frozen Generator 之后的生成效果,相比初始的 top-k 检索结果是否更好。值得注意的是,s3 训练时始终初始化于相同的原始 query,从而能清晰对比 s3 检索对结果带来的真实「增益」。
准确率(Acc)评估标准
我们采用了更语义友好的 **Generation Accuracy(GenAcc)**指标。它结合了两种机制:
- Span Match:判断生成答案是否包含参考答案的任意 token span
- LLM Judge:由一个轻量 LLM 判断答案是否语义正确
两者只要任意一个通过,则视为正确。这一指标在人工对比中与人类判断一致率高达 96.4%,相比之下,EM 仅为 15.8%。
训练与优化 - 仅需 2.4k 样本即可完成 ppo 训练:
我们采用 PPO 进行策略优化。为了提升训练效率:
- 我们预筛除掉了「naive RAG 就能答对」的样本;
- 将训练样本集中在需要真正检索的新信息的任务上;
- Generator 完全冻结,训练代价完全集中在 Searcher。
s3 训练总时间只需 114 分钟(vs Search-R1 的 3780 分钟),数据也减少约 70 倍。
实验分析
General QA w/ RAG
实验一:通用 QA 任务,s3 优于 Search-R1 和 DeepRetrieval。
我们在六个通用数据集上评估了 Direct Inference、Naive RAG、IRCoT、DeepRetrieval、Search-o1、Search-R1 以及 s3 的性能。实验中,我们使用了不同的下游 LLM,包括 Qwen2.5-7B-Instruct,Qwen2.5-14B-Instruct 和 Claude-3-Haiku。
尽管 s3 仅使用了 2.4k 条 NQ+HotpotQA 训练数据(training source 和 Search-R1 一样),它在其中五个数据集上实现了最优表现,展现出显著的泛化能力。
Medical QA w/ RAG
实验二:医学 QA 任务,s3 展现惊人的跨领域能力
我们随后在五个医学领域的 QA 数据集上进一步评估了模型性能,测试使用了两个语料库:Wikipedia2018(与通用测试一致)和 MedCorp(ACL 2024)。结果显示,Search-R1 在其训练语料上表现良好,但在语料变更后显现出过拟合趋势;相比之下,s3 能稳定迁移至不同的数据集与语料库,凸显出其基于 searcher-only 优化策略的强泛化能力。
reward 优化曲线
图 5 展示了我们的 reward 曲线,可以看出 s3 在接近 10 个训练步骤(batch size 为 120)内便迅速「收敛」。这一现象支持两个推断:(1)预训练语言模型本身已具备一定的搜索能力,我们只需通过合理的方式「激活」这种能力;(2)在一定范围内,适当增加每轮搜索的文档数量和最大轮次数,有助于提升最终性能。
消融实验
在不同配置下,移除组件对性能的影响(平均准确率)。我们使用了三组设定进行对比,结果表明 s3 的设计在准确性与效率之间达到了最优平衡。
我们进一步通过消融实验,验证了 s3 框架中两个关键设计的必要性:
- 「从原始问题开始检索」 是方向正确的保障:我们发现,以用户原始问题作为第一轮检索的起点,有助于模型明确搜索目标、建立有效的检索路径。若不设置这一初始点,搜索策略往往偏离主题,导致性能显著下降。
- 「文档选择」 机制显著降低 token 消耗:该机制允许模型在每轮检索后主动筛选信息,从而避免将所有检索结果一股脑送入生成器。通过这一设计,s3 的输入 token 平均减少了 2.6 至 4.2 倍,不仅提升了效率,也减少了噪声干扰,对生成效果有正面作用。
总体来看,s3 设计中的「起点初始化 + 动态选择」是支撑其高效、强泛化性能的关键。即使在某些数据集上通过增加输入内容能获得短期增益,s3 原始结构在训练效率、推理速度与生成准确率上依然展现出更稳定的优势。
FAQ
Q1:为什么我们报告的 Search-R1 结果与原论文不一致?
A1: Search-R1 原文使用 Exact Match(EM)作为 reward 和评估指标,并对模型进行了针对性微调。将这种针对 EM 优化的模型,与其他 zero-shot 方法比较,略显不公平,也难以衡量搜索本身的效果。因此我们采用更语义友好的 Generation Accuracy(GenAcc),结合 span 匹配和 LLM 判断,与人类评估一致率达 96.4%。相比之下,EM 只能捕捉字面一致,反而容易误导模型优化方向。
Q2:s3 为什么不训练生成器?这样是否限制了模型性能?
A2: 我们设计 s3 的核心理念是:如果我们想真正优化搜索效果,不应让生成器被训练,否则会混淆「搜索变好」与「语言模型变强」带来的增益。冻结生成器不仅提升了训练效率(节省大模型微调成本),也便于模型迁移到不同任务与生成器,真正做到「搜索能力即插即用」。
如何学习AI大模型 ?
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈
对于0基础小白入门:
如果你是零基础小白,想快速入门大模型是可以考虑的。
一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。
👉1.大模型入门学习思维导图👈
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
👉2.AGI大模型配套视频👈
很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。
👉3.大模型实际应用报告合集👈
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)
👉4.大模型实战项目&项目源码👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战项目来学习。(全套教程文末领取哈)
👉5.大模型经典学习电子书👈
随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
👉6.大模型面试题&答案👈
截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)
为什么分享这些资料?
只要你是真心想学AI大模型,我这份资料就可以无偿分享给你学习,我国在这方面的相关人才比较紧缺,大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!
这些资料真的有用吗?
这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。
CSDN粉丝独家福利
这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】
读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈