Qwen数学“超能力“的真相:是推理还是记忆?

近年来,强化学习(RL)被广泛用于提升大语言模型(LLM)的数学推理能力,尤其在Qwen2.5模型上出现了令人费解的现象:随机甚至错误的奖励信号也能显著提高其数学评测分数,而同样方法对其他模型(如Llama)无效。这一"反常增益"引发质疑:模型的性能提升究竟源于推理能力进化,还是因训练数据泄露导致"偷看答案"?

  • 论文:Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

  • 链接:https://arxiv.org/pdf/2507.10532

本论文通过严谨实验揭露了行业痛点:广泛使用的数学评测基准(如MATH-500)存在数据污染——Qwen2.5在预训练阶段可能已接触过这些题目及其答案。研究者创新性地构建了完全无污染的算术数据集RandomCalculation,并证明在干净数据上,只有精准奖励才能突破模型性能天花板。这一发现为LLM评估的可靠性敲响警钟,呼吁学界采用更严谨的评测协议。

研究背景与核心问题

数学推理评测的陷阱
数学推理被视为检验LLM逻辑能力的黄金标准,因其需多步骤符号推导与精确计算。主流评测集(如MATH-500、AMC)包含大量来自竞赛网站的题目。然而,Qwen2.5在RL训练中出现诡异现象:

  • 反常识现象:使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。

  • 矛盾点:若奖励信号与解题质量无关,模型为何"进步"?

关键质疑:这是否说明Qwen2.5具备"无监督推理能力"?论文提出两大假说:

  • 数据污染假说:Qwen2.5在预训练中已记忆题目答案,奖励信号仅是触发回忆的"暗号"。

  • 基础能力假说:Qwen2.5数学能力更强,故能利用噪声信号优化策略。

关键假设与验证方法

假说1:数据污染的直接证据

研究者设计部分提示测试:仅输入题目前40%~80%内容,要求模型补全剩余部分并给出答案。结果显示:

  • Qwen2.5:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。

  • Llama3.1:相同条件下补全率仅3.8%,答案准确率2.4%。

决定性对比:在Qwen2.5发布构建的新基准LiveMathBench上,Qwen补全率骤降至0%,与Llama持平。

假说2:基础能力差异的分离实验

为排除"Qwen数学更强"的干扰,研究者创建无污染数据集

  • RandomCalculation:自动生成任意长度算术表达式(操作数:0-100的整数/分数,运算符:+ - × ÷),确保所有题目在Qwen2.5训练后发布。

  • 零样本测试:Qwen在未见过的新题目上表现随计算步数增加而下降,证明无记忆行为。

创新实验设计

RandomCalculation 的生成逻辑

通过递归组合子表达式构建N步计算题(见算法1):

  1. 初始化基础数字池(如 S₀ = {7, ¼, 5²}

  2. 循环合并子集:左子式 OP 右子式OP ∈ {+, -, ×, ÷}

  3. 添加标准化问题前缀(如"计算表达式值:")

数据集示例:包含高精度小数结果的表达式,避免整数巧合匹配。

奖励函数设计的创新

传统RLVR使用二元奖励(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。论文提出连续奖励函数

  • 符号解释

    • :模型输出答案

    • :标准答案

    • :防除零小常数(

  • 设计思想:同时惩罚绝对误差)与相对误差),使奖励更平滑。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。

对比实验设置

RandomCalculation上训练Qwen2.5-Math-7B,对比四类奖励:

  • Correct:答案正确=1,错误=0

  • Random:50%概率随机给1或0

  • Inverted:答案正确=0,错误=1(惩罚正确行为)

  • Mv-incorrect:仅当输出匹配错误标签时给1

核心发现

数据污染的颠覆性影响

  • 污染数据集(MATH-500):随机奖励使Qwen准确率提升15%,反转奖励也有增益;但对Llama无效甚至有害。

  • 根本原因:污染数据下,奖励信号触发GRPO算法的偏好偏差,引导模型检索记忆而非学习推理。

干净数据上的真理时刻

RandomCalculation(5步计算题)上:

  • 仅正确奖励:性能持续上升,突破初始Max@16上限(最高采样准确率)。

  • 随机/反转奖励:训练剧烈震荡,无稳定增益;反转奖励导致性能崩溃。

正确奖励下Qwen稳步优化;随机奖励波动剧烈;反转奖励迅速失效。

Qwen的真实数学能力

  • 优势:在无污染数据上,Qwen通过正确奖励可掌握多步计算(如10步表达式),证明其具备算术泛化能力

  • 局限:其强化学习增益高度依赖奖励精确性,且Llama在相同条件下无法突破性能上限。

结论

本文揭示了LLM数学推理研究中的隐蔽陷阱:评测基准数据污染导致强化学习结果不可靠。通过构建无污染数据集RandomCalculation,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,唯有精确奖励能解锁真实推理能力。这一发现不仅解释了Qwen与Llama的强化学习差异,更为整个领域提出方法论警示:

  • 短期:需清洗评测数据或采用后发布动态基准。

  • 长期:开发更鲁棒的RL协议,降低对奖励信号的敏感度。

研究最终指向一个核心原则:可靠的AI进步,必须建立在无偏见的评估之上。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值