近年来,强化学习(RL)被广泛用于提升大语言模型(LLM)的数学推理能力,尤其在Qwen2.5模型上出现了令人费解的现象:随机甚至错误的奖励信号也能显著提高其数学评测分数,而同样方法对其他模型(如Llama)无效。这一"反常增益"引发质疑:模型的性能提升究竟源于推理能力进化,还是因训练数据泄露导致"偷看答案"?

论文:Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
链接:https://arxiv.org/pdf/2507.10532
本论文通过严谨实验揭露了行业痛点:广泛使用的数学评测基准(如MATH-500)存在数据污染——Qwen2.5在预训练阶段可能已接触过这些题目及其答案。研究者创新性地构建了完全无污染的算术数据集RandomCalculation,并证明在干净数据上,只有精准奖励才能突破模型性能天花板。这一发现为LLM评估的可靠性敲响警钟,呼吁学界采用更严谨的评测协议。
研究背景与核心问题
数学推理评测的陷阱
数学推理被视为检验LLM逻辑能力的黄金标准,因其需多步骤符号推导与精确计算。主流评测集(如MATH-500、AMC)包含大量来自竞赛网站的题目。然而,Qwen2.5在RL训练中出现诡异现象:
反常识现象:使用随机奖励(如抛硬币决定对错)时,Qwen2.5在MATH-500的准确率仍显著上升(+15%),而同样方法使Llama性能下降。
矛盾点:若奖励信号与解题质量无关,模型为何"进步"?
关键质疑:这是否说明Qwen2.5具备"无监督推理能力"?论文提出两大假说:
数据污染假说:Qwen2.5在预训练中已记忆题目答案,奖励信号仅是触发回忆的"暗号"。
基础能力假说:Qwen2.5数学能力更强,故能利用噪声信号优化策略。
关键假设与验证方法
假说1:数据污染的直接证据
研究者设计部分提示测试:仅输入题目前40%~80%内容,要求模型补全剩余部分并给出答案。结果显示:
Qwen2.5:在MATH-500上,仅凭60%题目前缀可精确补全剩余文本(54.6% EM),且答案准确率高达53.6%。
Llama3.1:相同条件下补全率仅3.8%,答案准确率2.4%。
决定性对比:在Qwen2.5发布后构建的新基准LiveMathBench上,Qwen补全率骤降至0%,与Llama持平。
假说2:基础能力差异的分离实验
为排除"Qwen数学更强"的干扰,研究者创建无污染数据集:
RandomCalculation:自动生成任意长度算术表达式(操作数:0-100的整数/分数,运算符:
+ - × ÷
),确保所有题目在Qwen2.5训练后发布。零样本测试:Qwen在未见过的新题目上表现随计算步数增加而下降,证明无记忆行为。
创新实验设计
RandomCalculation 的生成逻辑
通过递归组合子表达式构建N步计算题(见算法1):
初始化基础数字池(如
S₀ = {7, ¼, 5²}
)循环合并子集:
左子式 OP 右子式
(OP ∈ {+, -, ×, ÷}
)添加标准化问题前缀(如"计算表达式值:")

奖励函数设计的创新
传统RLVR使用二元奖励(答案正确=1,错误=0),但对含小数的复杂算术题无效(模型几乎得不到正反馈)。论文提出连续奖励函数:
符号解释:
:模型输出答案
:标准答案
:防除零小常数()
设计思想:同时惩罚绝对误差()与相对误差(),使奖励更平滑。例如,若答案误差在1%内,奖励≈0.99,显著提升训练稳定性。
对比实验设置
在RandomCalculation上训练Qwen2.5-Math-7B,对比四类奖励:
Correct:答案正确=1,错误=0
Random:50%概率随机给1或0
Inverted:答案正确=0,错误=1(惩罚正确行为)
Mv-incorrect:仅当输出匹配错误标签时给1
核心发现
数据污染的颠覆性影响
污染数据集(MATH-500):随机奖励使Qwen准确率提升15%,反转奖励也有增益;但对Llama无效甚至有害。
根本原因:污染数据下,奖励信号触发GRPO算法的偏好偏差,引导模型检索记忆而非学习推理。
干净数据上的真理时刻
在RandomCalculation(5步计算题)上:
仅正确奖励:性能持续上升,突破初始
Max@16
上限(最高采样准确率)。随机/反转奖励:训练剧烈震荡,无稳定增益;反转奖励导致性能崩溃。

Qwen的真实数学能力
优势:在无污染数据上,Qwen通过正确奖励可掌握多步计算(如10步表达式),证明其具备算术泛化能力。
局限:其强化学习增益高度依赖奖励精确性,且Llama在相同条件下无法突破性能上限。
结论
本文揭示了LLM数学推理研究中的隐蔽陷阱:评测基准数据污染导致强化学习结果不可靠。通过构建无污染数据集RandomCalculation,研究者实证了Qwen2.5在MATH-500上的"魔法增益"实为记忆召回,而在干净环境中,唯有精确奖励能解锁真实推理能力。这一发现不仅解释了Qwen与Llama的强化学习差异,更为整个领域提出方法论警示:
短期:需清洗评测数据或采用后发布动态基准。
长期:开发更鲁棒的RL协议,降低对奖励信号的敏感度。
研究最终指向一个核心原则:可靠的AI进步,必须建立在无偏见的评估之上。