【AI论文】SimpleTIR：面向多轮工具集成推理的端到端强化学习

硅基演算法

于 2025-09-05 07:00:00 发布

阅读量602

点赞数 18

CC 4.0 BY-SA版权

文章标签：人工智能机器学习深度学习

本文链接：https://blog.csdn.net/m0_66899341/article/details/151179196

摘要：大语言模型（LLMs）通过与外部工具交互可显著提升推理能力，这一范式被称为工具集成推理（Tool-Integrated Reasoning，TIR）。然而，当利用强化学习（Reinforcement Learning，RL）将TIR扩展至多轮场景时，训练不稳定性和性能崩溃问题常成为阻碍。我们发现，这种不稳定性主要由外部工具反馈引发的分布偏移导致，进而产生低概率标记（token）。这一问题在连续多轮中不断累积，引发灾难性的梯度范数爆炸，最终导致训练过程失控。为应对这一挑战，我们提出SimpleTIR——一种即插即用的算法，可稳定多轮TIR训练。其核心策略是识别并过滤包含无效轮次的轨迹（即既未生成代码块也未给出最终答案的轮次）。通过在策略更新中移除这些存在问题的轨迹，SimpleTIR有效阻断了有害的高幅值梯度，从而稳定了学习动态。大量实验表明，SimpleTIR在具有挑战性的数学推理基准测试中取得了最优性能，特别是在以Qwen2.5-7B基础模型为起点时，将AIME24分数从纯文本基线的22.1显著提升至50.5。此外，通过规避监督微调的限制，SimpleTIR鼓励模型发现多样化且复杂的推理模式，例如自我修正和交叉验证。Huggingface链接：Paper page，论文链接：2509.02479

研究背景和目的

研究背景：
随着大型语言模型（LLMs）的快速发展，其在自然语言处理（NLP）领域的应用日益广泛。然而，传统的LLMs主要依赖于静态的文本生成和理解能力，缺乏在动态、交互式环境中进行多轮推理和决策的能力。特别是在需要外部工具辅助的复杂任务中，如数学推理、代码生成和问题解答等，LLMs往往难以直接给出准确且全面的答案。为了解决这一问题，工具集成推理（Tool-Integrated Reasoning, TIR）作为一种新兴范式应运而生，它允许LLMs通过与外部工具（如计算器、搜索引擎、代码解释器等）进行交互，从而增强其推理和决策能力。

然而，将TIR扩展到多轮场景时，使用强化学习（RL）进行训练往往会遇到训练不稳定和性能崩溃的问题。这主要是由于外部工具反馈引起的分布偏移导致低概率标记的生成，这些低概率标记在连续多轮交互中不断累积，最终引发灾难性的梯度范数爆炸，破坏训练过程。因此，如何设计一种稳定且高效的多轮TIR训练方法，成为当前研究的重要挑战。

研究目的：
本研究旨在提出一种名为SimpleTIR的端到端强化学习框架，以解决多轮工具集成推理中的训练不稳定问题。具体目标包括：

稳定性提升：通过引入轨迹过滤机制，识别并过滤掉包含“无效轮次”（即既不生成代码块也不生成最终答案的轮次）的轨迹，从而防止低概率标记引起的梯度爆炸，稳定训练过程。
性能优化：在保证训练稳定性的同时，提升模型在多轮TIR任务中的推理性能，特别是在数学推理等复杂任务上的表现。
探索多样化推理模式：鼓励模型在训练过程中发现多样化和复杂的推理模式，如自我纠正和交叉验证，从而增强模型的泛化能力和适应性。

研究方法

本研究采用了以下方法来实现上述研究目的：

问题分析：

识别关键问题：通过理论分析和实验验证，确定多轮TIR训练中不稳定性的根源在于外部工具反馈引起的分布偏移和低概率标记的累积。
构建问题模型：将多轮TIR训练过程建模为分层马尔可夫决策过程（Hierarchical Markov Decision Process, HMDP），其中高层次策略控制对话轮次的顺序，低层次策略在每个轮次内生成标记。

算法设计：

引入轨迹过滤机制：设计SimpleTIR算法，通过识别并过滤掉包含无效轮次的轨迹，防止低概率标记进入梯度计算，从而稳定训练过程。
联合策略优化与反馈掩码：采用Group Relative Policy Optimization (GRPO)算法进行策略优化，并通过反馈掩码技术确保仅对智能体生成的标记进行梯度计算，排除外部工具反馈的影响。

实验设计：

基准测试：选择多个具有挑战性的数学推理基准测试，如Math500、AIME24、AIME25等，评估SimpleTIR在不同任务上的表现。
对比实验：与多种基线方法进行对比，包括非TIR的Zero RL方法、基于冷启动SFT的TIR方法以及其他Zero RL与TIR结合的方法，验证SimpleTIR的优势。
消融研究：通过消融实验分析轨迹过滤机制在稳定训练和提高性能方面的关键作用。

研究结果

通过一系列实验，本研究取得了以下主要结果：

训练稳定性显著提升：

SimpleTIR在训练过程中表现出高度的稳定性，梯度范数保持平稳，几乎没有出现梯度爆炸现象。相比之下，传统多轮训练方法往往出现严重的梯度不稳定和性能崩溃。
消融实验进一步验证了轨迹过滤机制在稳定训练中的关键作用，去除该机制后，训练过程迅速变得不稳定。

推理性能显著提高：

在多个数学推理基准测试上，SimpleTIR取得了显著优于基线方法的性能。例如，在AIME24测试集上，SimpleTIR将分数从文本基线的22.1提升至50.5，展示了其在复杂推理任务上的强大能力。
与其他Zero RL和TIR方法相比，SimpleTIR在保持训练稳定性的同时，实现了更高的推理准确性和更强的泛化能力。