Reinforcement Pre-Training——强化预训练

最新推荐文章于 2025-08-27 20:59:43 发布

Together_CZ

最新推荐文章于 2025-08-27 20:59:43 发布

阅读量1k

点赞数 22

CC 4.0 BY-SA版权

文章标签：人工智能深度学习机器学习 Reinforcement Pre-Training 强化预训练强化学习

本文链接：https://blog.csdn.net/Together_CZ/article/details/148613132

这篇文章介绍了一种名为“强化预训练（Reinforcement Pre-Training, RPT）”的新范式，用于提升大型语言模型（LLMs）的预训练效果。以下是文章的主要研究内容总结：

1. 研究背景与动机

大型语言模型（LLMs）的现状：LLMs在多种任务中表现出色，主要依赖于大规模的下文预测（Next-Token Prediction, NTP）预训练。然而，现有的强化学习（Reinforcement Learning, RL）方法在LLMs中的应用面临可扩展性和泛化性挑战。
强化学习的局限性：基于人类反馈的强化学习（RLHF）依赖昂贵的人类偏好数据，且容易出现奖励函数被“利用”的问题；而基于可验证奖励的强化学习（RLVR）受限于标注数据的稀缺性，难以用于通用预训练。

2. 强化预训练（RPT）的核心思想

将下文预测转化为推理任务：RPT将传统的下文预测任务重新定义为一个推理任务，模型需要在预测下一个标记之前进行推理，并通过RL获得奖励信号。
奖励机制：模型根据其预测的正确性获得可验证的内在奖励，从而将未标注的文本数据转化为大规模的通用RL数据集。
优势：RPT具有可扩展性和通用性，能够利用标准的下文预测数据，避免了奖励函数被利用的问题，并通过推理模式的训练提升模型的泛化能力。

3. RPT的实现方法

下文推理任务：模型在给定上下文的情况下，需要生成一个推理链，然后预测下一个标记。这种推理过程涉及多种推理模式，如假设生成、自我反思等。
强化学习训练：RPT使用基于策略的强化学习，模型通过生成多个推理轨迹并根据预测的正确性获得奖励来更新自身。
实验设置：使用OmniMATH数据集进行预训练，并通过过滤低熵标记来专注于难以预测的标记。

4. 实验结果与分析

语言建模性能提升：RPT在下文预测任务上显著优于标准的下文预测方法，甚至超过了更大规模的模型（如R1-Distill-Qwen-32B）。
可扩展性分析：随着训练计算量的增加，RPT的性能持续提升，显示出良好的扩展性。
推理能力增强：RPT在零样本设置下，在多个推理基准测试（如MMLU-Pro和SuperGPQA）上表现优于基线模型。
推理模式分析：RPT模型在推理过程中更多地使用假设和演绎模式，与传统的问题解决模式有显著差异。

5. 结论与未来工作

RPT的贡献：RPT通过将下文预测转化为推理任务，并利用基于正确性的奖励信号，显著提升了LLMs的预训练效果，为开发更强大的LLMs提供了新方向。
局限性：当前实验主要基于14B参数的模型，并且预训练语料库主要集中在数学文档上。未来的工作将探索更广泛的文本领域，并尝试从标准语言模型开始进行RPT训练。
未来方向：扩大训练语料库的规模和领域覆盖范围，提升训练计算量，并探索将混合思维与RPT结合，以实现更细粒度的自适应推理。

6. 关键创新点

将下文预测与推理结合：通过RL激励模型进行推理，而不仅仅是预测下一个标记。
可扩展的通用预训练方法：利用未标注的文本数据进行大规模预训练，避免了对标注数据的依赖。
提升推理能力：通过推理模式的训练，模型能够更好地泛化到各种任务中。

7. 应用前景

RPT为LLMs的预训练提供了一种新的思路，有望在自然语言处理的多个领域（如问答、文本生成、逻辑推理等）中提升模型的性能和泛化能力。
该方法还可以与现有的强化学习技术结合，进一步优化模型的训练过程。

总体而言，这篇文章提出了一种创新的预训练方法，通过强化学习激励模型进行推理，从而提升其在多种任务中的表现，为未来大型语言模型的发展提供了新的方向。这里是自己的论文阅读记录，感兴趣的话可以参考一下，如果需要阅读原文的话可以看这里，如下所示：

在本工作中，我们引入了强化预训练（Reinforcement Pre-Training, RPT），这是一种针对大型语言模型和强化学习（Reinforcement Learning, RL）的新规模化范式。具体而言，我们将下一个词元预测任务重新定义为通过强化学习训练的推理任务，模型在正确预测给定上下文的下一个词元时会获得可验证的奖励。RPT 提供了一种可扩展的方法，利用大量的文本数据进行通用强化学习，而不是依赖于特定领域的标注答案。通过激励模型进行下一个词元推理的能力，RPT 显著提高了语言模型预测下一个词元的准确性。此外，RPT 为后续的强化微调提供了强大的预训练基础。规模曲线表明，增加训练计算量可以持续提高下一个词元预测的准确性。这些结果表明，RPT 是一种有效且有前景的规模化范式，能够推动语言模型预训练的发展。

关键词：强化学习（RL）、下一个词元预测（Next-Token Prediction）、预训练（Pre-Training）

图1：强化预训练（RPT）将下一个词元预测重新定义为一个推理任务，语言模型通过强化学习（RL）被激励去推理并正确预测下一个词元。该方法允许将强化学习扩展到网络文本语料库。图中的樱桃蛋糕图片取自 LeCun 的幻灯片 [LeC16]。

1 引言

大型语言模型（LLMs）在广泛的任务中展现出了卓越的能力，这主要得益于其在海量文本语料库上通过下一个词元预测目标实现的可扩展性。这种自监督范式已被证明是一种有效的通用预训练方法。与此同时，强化学习（RL）作为一种强大的技术，被用于微调 LLMs，使其与人类偏好对齐或增强特定技能，例如复杂推理能力 [OWJ+22, JKL+24, GYZ+25]。

然而，当前在 LLM 训练中应用的 RL 面临着可扩展性和通用性的挑战。基于人类反馈的强化学习 [OWJ+22] 虽然在对齐方面效果显著，但依赖于昂贵的人类偏好数据，且其学习到的奖励模型容易受到奖励劫持（reward hacking）的限制，从而限制了其可扩展性。另一方面，具有可验证奖励的强化学习（Reinforcement Learning with Verifiable Rewards, RLVR）[LMP+25] 使用客观的、基于规则的奖励，通常来自问答对。虽然这减轻了奖励劫持的问题，但 RLVR 通常受到标注数据稀缺性的限制，只能应用于特定领域的微调，而不是通用预训练。

在本工作中，我们引入了强化预训练（Reinforcement Pre-Training, RPT），这是一种弥合可扩展自监督预训练与强化学习之间差距的新范式。RPT 将基本的下一个词元预测任务重新定义为下一个词元推理过程。对于预训练语料库中的任何给定上下文，模型被激励去推理下一个词元，然后再进行预测。模型根据其预测与语料库中的真实下一个词元的正确性获得可验证的内在奖励。这种方法将通常用于下一个词元预测的大量未标注文本数据转化为通用强化学习的海量数据集，无需外部标注或特定领域的奖励函数。

这种方法具有几个关键优势。首先，RPT 本质上是可扩展且通用的：它利用与标准下一个词元预测相同的海量未标注文本数据，将其转化为通用强化学习的海量数据集，无需外部标注。其次，使用直接的、基于规则的奖励信号（即预测下一个词元的正确性）从根本上最小化了与复杂、学习到的奖励模型相关的奖励劫持风险。第三，通过明确鼓励下一个词元推理模式，RPT 促进了更深入的理解和泛化能力，而不仅仅是记忆下一个词元。模型学会了探索和验证为什么某个词元应该出现，从而培养出更稳健的表示能力。最后，预训练期间的内部推理过程有效地允许模型为每个预测步骤分配更多的“思考”或计算工作，类似于在训练时为每个词元应用的推理时间扩展，这直接有助于提高下一个词元预测的准确性。

我们的实验表明，RPT 显著提高了预测下一个词元的准确性。RPT 还为后续的强化微调提供了更稳健的预训练基础，从而提高了最终任务的性能。规模曲线表明，在 RPT 框架下，增加训练计算量可以持续提高下一个词元预测的准确性，显示出其作为一种可持续扩展策略的潜力。这些结果表明，强化预训练是一种有效且有前景的新范式，能够推动大型语言模型预训练的发展。

我们的贡献总结如下：

我们引入了强化预训练（RPT），这是一种新的规模化范式，将下一个词元预测重新定义为通过强化学习训练的推理任务，直接从预训练语料库中获得内在的可验证奖励。
RPT 提供了一种可扩展且通用的强化学习预训练方法，通过基于规则的奖励最小化奖励劫持，并通过鼓励下一个词元推理模式而不是死记硬背来促进泛化。
RPT 显著提高了下一个词元预测的准确性，并展现出有利的扩展特性，随着训练计算量的增加，性能持续提高。
RPT 为后续的强化微调提供了更强的预训练基础，并增强了各种下游任务的零样本性能。

2 前置知识

3 强化预训练（Reinforcement Pre-Training）

3.1 标准下一个词元预测与下一个词元推理

标准下一个词元预测

3.2 预训练任务：下一个词元推理

如图 2 所示，下一个词元推理的长推理过程可以涉及多种推理模式，例如头脑风暴、自我批评和自我修正。下一个词元推理任务将预训练语料库重构为一组推理问题，将预训练从学习表面的词元级相关性转变为理解它们背后的隐藏知识，并使强化学习的扩展成为可能。

3.3 使用强化学习进行预训练、

其中，如果预测的字节序列是真实补全序列的精确前缀，并且其长度 l 与任何有效词元边界匹配，则奖励为 1。

3.4 预训练设置

我们使用 OmniMATH 数据集 [GSY+24] 进行强化预训练。OmniMATH 包含来自 AoPS Wiki<sup> 和 AoPS 论坛<sup> 官方网站的 4428 个竞赛级数学问题及其解答。由于许多词元即使不进行推理也很容易预测，我们在强化预训练之前进行了词元级数据过滤。具体而言，我们使用 DeepseekR1-Distill-Qwen-1.5B 作为小型代理模型。对于每个词元，我们计算代理模型对前 16 个下一个词元的熵。通过应用熵阈值，我们过滤掉低熵位置，优先训练那些需要更大计算工作量才能预测的挑战性词元。

在所有实验中，我们使用 Deepseek-R1-Distill-Qwen-14B [GYZ+25] 作为基础模型。R1-Distill-Qwen-14B 因其基本推理能力而成为强化学习的良好起点。我们使用 verl 库 [SZY+24] 实现我们的训练框架，并使用 vllm 进行推理。我们采用 GRPO 算法 [GYZ+25]，具体超参数在附录 B 中详细说明。在训练期间，我们采用 8k 的训练长度、1×10<sup> 的学习率、零 KL 惩罚项以及 256 个问题的批量大小。对于每个问题，我们采样 G=8 个回答，在 rollout 过程中，我们使用 0.8 的温度。从每个回答中，我们直接提取最后一个内的完整序列作为模型对下一个词元的预测。从 500 步开始，我们使用动态采样来提高训练效率 [YZZ+25]。我们主要实验的总训练步数为 1000 步。提示模板及其变体在附录 D 中讨论。

4 实验

4.1 语言建模

我们在 OmniMATH 的验证集上评估语言建模性能，验证集包含 200 个样本。按照我们在设置部分（第 3.3 节）描述的基于熵的数据过滤策略，我们将验证集中的词元位置根据其难度进行分类。具体来说，我们使用 R1-Distill-Qwen-14B 计算每个词元位置的熵。如果其熵值超过阈值 0.5、1.0 和 1.5，则分别将这些位置划分为简单、中等和困难类别。为了进行比较，我们以两种方式报告 R1-Distill-Qwen-14B 的性能：（1）标准的下一个词元预测，选择概率最高的词元；（2）下一个词元推理，在最终预测之前生成推理链。我们还包含了 Qwen2.5-14B 的结果，因为它是 R1-Distill-Qwen-14B 的基础模型。

表 1：不同难度水平的下一个词元预测准确率。RPT 在所有难度水平上均优于标准下一个词元预测基线和基于推理的预测基线。

如表 1 所示，RPT-14B 在所有难度水平上均实现了更高的下一个词元预测准确率，与 R1-Distill-Qwen-14B 相比表现更为出色。值得注意的是，RPT-14B 的性能与一个显著更大的模型相当，即 R1-Distill-Qwen-32B（见图 4）。这些结果表明，强化预训练在捕捉词元生成背后的复杂推理信号方面非常有效，并且具有显著提升 LLMs 语言建模能力的潜力。

4.2 强化预训练的扩展特性

在本节中，我们研究强化预训练的扩展特性。在自然语言语料库上进行下一个词元预训练所获得的损失，经验上遵循与模型大小、训练词元数量和训练计算量相关的幂律衰减关系 [HBM+22b, KMH+20]。以下，我们专门分析 RPT 的扩展行为，重点关注训练计算量 C。我们使用以下幂律形式来建模这种关系：

4.3 使用 RPT 进行强化微调

为了研究 RPT 模型是否能够更有效地通过 RLVR 进行微调，我们从 Skywork-OR1 [HLL+25] 中随机抽取带有可验证答案的问题进行进一步训练。我们使用 256 个样本进行训练，200 个样本进行测试。按照 SkyworkOR1 [HLL+25] 中的数据过滤流程，我们使用 R1-Distill-Qwen-32B 来识别训练中的挑战性实例。我们将训练批量大小和 PPO 小批量大小均设置为 64，并训练模型 15 个周期。在评估期间，验证的最大词元数量设置为 32,000，温度设置为 0.6。

如表 2 所示，经过强化预训练的模型在进一步通过 RLVR 训练时能够达到更高的上限。当在相同的数据上持续使用下一个词元预测目标进行训练时，模型的推理能力显著下降。随后的 RLVR 只能带来缓慢的性能提升。这些结果表明，在数据有限的情况下，强化预训练可以快速将从下一个词元推理中学到的强化推理模式转移到最终任务中。

模型	微调前	微调后
R1-Distill-Qwen-14B	51.2	52.7
+ 持续下一个词元预测训练	10.7	13.0
RPT-14B	56.3	58.3

表 2：不同模型的强化微调性能。“持续下一个词元预测训练”表示在与 RPT-14B 相同的语料库上，使用标准下一个词元预测目标进行持续预训练。RPT 为后续的 RL 训练提供了更强的基础。

4.4 终端任务的零样本性能评估

我们对 RPT-14B 在终端任务上的零样本性能进行了评估。为了进行比较，我们评估了 R1-Distill-Qwen-14B 和 R1-Distill-Qwen-32B 的下文预测性能，以及 RPT-14B 与 R1-Distill-Qwen-14B 的推理性能。

我们的评估涉及两个广泛认可的基准测试：MMLU-Pro [HBB+20]，这是一个综合性的多任务理解基准测试，用于评估大型语言模型（LLM）在各个领域的性能；SuperGPQA [DYM+25]，这是一个涵盖 285 个学科的研究生级推理问题的大规模基准测试。在推理设置中，我们将最大标记数设置为 12,288，温度设置为 0.8。根据以往的研究 [MLJ+25, ZLS+25b]，我们采用多项选择题的形式进行评估，并报告准确率。
如表 3 所示，RPT-14B 在所有基准测试中均一致优于 R1-Distill-Qwen-14B（无论是使用标准的下文预测还是作为推理模型进行评估）。值得注意的是，它还超过了显著更大的 R1-Distill-Qwen-32B（在下文预测下），在 SuperGPQA 上提高了 7 个百分点，在 MMLU-Pro 上提高了约 22 个百分点。每个基准测试的详细按科目结果提供在附录 C 中。

4.5 下文推理模式分析

我们分析了下文推理与显式问题解决之间的推理模式差异。根据以往的研究 [WYZ+25, GCD+25]，我们统计测量了模型响应中包含推理指示关键词（例如“分解”、“或者”）的比例。
我们的分析比较了两个模型在 OmniMATH 数据集上的思维过程，即 R1-Distill-Qwen-14B 用于问题解决，RPT-14B 用于下文推理，基于每个模型的 200 个采样响应。我们将推理模式分为六种类型：过渡（切换策略）、反思（自我检查）、分解（分解问题）、假设（提出并验证假设）、发散思维（探索可能性）和演绎（逻辑推理）。

如图 6 所示，RPT-14B 的下文推理过程与 R1-Distill-Qwen-14B 的问题解决过程显著不同，其假设模式的使用增加了 161.8%，演绎模式的使用增加了 26.2%。相比之下，问题解决过程更多地依赖于分解模式，这表明下文推理引发了一种与结构化问题解决定性不同的推理过程。
我们还在表 4 中提供了一个推理模式的例子。该例子表明，模型参与了一个深思熟虑的过程，而不是简单的模式匹配。它分析了更广泛的语义上下文（“计算向量大小”），识别关键短语（“继续讲一些……”），然后进行头脑风暴并权衡多个可能的延续。这涉及假设生成（“下一部分可能是……”）、考虑替代方案（“或者，它可能是……”）以及对结构线索（“带有标题的 Markdown”）甚至细粒度的标记级细节（“可能存在空格”）的反思。这种多方面的推理，既包括高层次的语义理解，也包括低层次的文本特征，展示了模型通过推理探索来推断下一个标记的努力，这与 RPT 的目标一致，即培养超越表面相关性的更深层次理解。更多例子提供在附录 F 中。

5 相关工作

大型语言模型的扩展范式
大型语言模型的发展主要受到两个主要扩展维度的推动：训练时计算 [KMH+20, HBM+22a] 和测试时计算 [ZLS+25a]。训练时扩展显著增加了模型参数和训练数据，使用下文预测作为预训练任务。与此同时，测试时扩展 [JKL+24] 通过扩展推理计算来提高大型语言模型的推理能力。RPT 独特地整合了上述原则，将每个下文预测视为一个推理任务。
大型语言模型的强化学习
强化学习（RL）在大型语言模型的后训练阶段发挥了关键作用。基于人类反馈的强化学习 [OWJ+22] 在人类偏好数据上微调预训练语言模型以提高对齐性。除了对齐之外，大规模强化学习还被用于增强语言模型的推理能力 [JKL+24, GYZ+25]。[ZHS+24] 是最相关的工作，它鼓励语言模型为下文预测生成有帮助的推理依据。基于有帮助性的奖励容易通过在生成的推理中重复目标标记来被利用，这种捷径可能会损害模型。相比之下，我们使用下文预测的正确性作为基于规则的奖励信号，以最小化奖励利用。

6 结论与未来工作

我们引入了强化预训练（RPT），这是一种用于预训练大型语言模型的新范式。通过将下文预测视为一个可验证的推理任务，并应用基于正确性的强化学习，RPT 允许大型语言模型在预训练期间利用扩展的计算能力，以建立更强的基础推理能力。我们的实验表明，RPT 提高了下文预测的准确性，在零样本设置中增强了数学和一般推理基准测试的性能，并为后续的强化微调提供了更好的起点。RPT 为开发更强大、更通用的大型语言模型提供了一个有前景的新方向，通过从根本上重新思考预训练目标本身。
尽管前景广阔，但 RPT 的初步探索存在一定的局限性。我们的实验主要使用了一个 14B 参数的模型。尽管 RPT 方法被设计为通用的，但当前的预训练语料库主要由数学文档组成；未来的工作将探索其在更广泛的通用领域文本上的有效性。此外，RPT 训练是从一个推理模型初始化的；从标准基础语言模型开始进行 RPT 训练将进一步揭示其基础影响。
该工作可以从以下方面推进。我们希望扩大训练语料库，包括数据规模和领域覆盖范围。在强化预训练期间可以利用大规模通用互联网数据。我们还将扩大训练计算规模以推动前沿发展。此外，我们可以为强化预训练建立扩展定律，以指导大型语言模型的扩展。此外，我们有兴趣将混合思维 [JWH+25] 与 RPT 整合，通过自适应触发下文推理来实现细粒度的自适应思维。