1、简介
DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,而无需先进行有监督的微调(SFT),展示了显著的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。
2、相关背景
最近,后训练已成为完整训练流程中的一个重要组成部分。研究表明,后训练能够在推理任务上提高准确性,与社会价值观保持一致,并适应用户偏好,同时相比预训练所需的计算资源更少。
在推理能力方面,OpenAI 的 o1 系列模型首次通过增加推理过程的链式思考(Chain-of-Thought, CoT)长度引入了推理时的扩展,这一方法在数学、编程和科学推理等多种推理任务中取得了显著的改进。
然而,如何有效实现测试时的扩展仍然是研究社区的一个开放性问题。此前,已有研究探索了多种方法,包括基于过程的奖励模型(Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023)、强化学习(Kumar et al., 2024),以及蒙特卡洛树搜索和束搜索等搜索算法(Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024)。然而,这些方法尚未达到与 OpenAI 的 o1 系列模型相当的通用推理性能。
总的来说:(1)随着数据以及算力到达瓶颈,预训练已经已经是过去式,后训练时代已经开启。好的后训练不仅能提高推理任务上的准确率,而且相比预训练使用的计算资源更少。(2)OpenAI-o1模型首次引入了思维链模式,在逻辑推理等方面取得了显著的改进。(3)在此之前的一些常规方法,如强化学习等,仍未到达与OpenAI-o1相媲美的推理性能。
3、核心贡献
DeepSeek-R1-Zero 迈出了通过纯强化学习(RL)提升语言模型推理能力的第一步。其目标是探索在没有任何监督数据的情况下,通过纯 RL 过程激励 LLMs 发展推理能力的潜力。具体而言,以 DeepSeek-V3-Base 作为基础模型,并采用 GRPO(Shao et al., 2024)作为 RL 框架,以提升模型在推理任务中的表现。在训练过程中,DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。经过数千步的 RL 训练后,DeepSeek-R1-Zero 在推理基准测试中表现出色。例如,在 AIME 2024 上的 pass@1 分数从 15.6% 提高到 71.0%,并且通过多数投票,分数进一步提高到 86.7%,与 OpenAI-o1-0912 的表现相当。
文章中说的纯强化学习,我理解是指在后训练阶段,只用到强化学习,不需要额外的SFT;其基础模型DeepSeek-V3-Base已经具备了一定的语言理解和生成能力,因此DeepSeek-V3-Base 很可能在预训练阶段已经通过大量的文本数据学习了语言的通用特征。(如果有不同意见,可以在评论区讨论)
4、强化学习算法
4.1 引入
强化学习在推理任务中的有效性已被证明(Shao et al., 2024; Wang et al., 2023)。然而,这些工作高度依赖监督数据,而收集这些数据耗时且成本较高(传统的强化学习依赖人工打分)。DeepSeek集中探索了LLMs 在没有任何监督数据的情况下发展推理能力,专注于通过纯强化学习过程实现模型的自我进化。
4.2 组相对策略优化(GRPO)
为了节省 RL 的训练成本,deepseek采用了组相对策略优化(GRPO)(Shao et al., 2024),该方法省略了通常与策略模型大小相同的批评者模型(也也可以说奖励模型),并从组分数中估计基线。具体来说,对于每个问题 q,GRPO 从旧策略
π
θ
o
l
d
{π_\theta}_{old}
πθold 采样一组输出 {
O
1
,
O
2
,
.
.
.
,
O
G
O_1, O_2, ..., O_G
O1,O2,...,OG},然后通过最小化以下的目标函数来优化当前的策略模型
π
θ
π_\theta
πθ:
- KL散度:又称为相对熵,用于衡量一个概率分布相对于另一个分布的差异。在GRPO损失函数中,KL酸度项的作用主要体现在:
- 限制策略更新幅度:用于限制新策略和旧策略之间的差异,通过引入KL散度约束,GRPO能够防止策略更新的过于剧烈。
- 正则化作用:通过惩罚策略分布的剧烈变化,使得策略更新更加平滑和可控,提高训练的稳定性
- 防止输出分布偏离过大:通过惩罚新旧策略之间的差异,防止模型的输出分布与原始策略分布偏离太大,提高模型的稳定性。
- 奖励函数 A i A_i Ai: 针对一组生成的答案,根据奖励函数(总体上是基于规则的 ),生成一组奖励评分(或者排序),然后将所有评分进行归一化处理。
4.3 奖励模型
奖励是训练信号的来源,决定了 RL 的优化方向。为了训练 DeepSeek-R1-Zero,采用了基于规则的奖励系统,主要包括以下两种奖励:
- 准确性奖励:准确性奖励模型评估响应是否正确。例如,在数学问题中,结果是确定的,模型需要以指定格式(例如在方框内)提供最终答案,以便可靠地通过基于规则的验证来确认正确性。同样,在 LeetCode 问题中,可以使用编译器根据预定义的测试用例生成反馈。
- 格式奖励:除了准确性奖励模型外,我们还采用了格式奖励模型,要求模型将思考过程放在 <think> 和 </think> 标签之间。
我们没有在开发 DeepSeek-R1-Zero 时应用结果或过程神经奖励模型,因为我们发现神经奖励模型可能在大规模强化学习过程中遭受奖励劫持的问题,而重新训练奖励模型需要额外的训练资源,并且会复杂化整个训练流程。
通过基于思维链(CoT)的奖励工程解决了RL搜索路径的优化问题,提好了收敛效率!
比如针对数学问题,有很多数学推理的模版;针对编程问题,所有很多编程的规则模版;针对不同推理任务设计不同的模版等等。
4.4 训练模板
为了训练 DeepSeek-R1-Zero,我们设计了一个简单的模板,指导基础模型遵循我们的指定指令。如表 1 所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后是最终答案。我们故意将约束限制在这一结构格式上,避免任何内容相关的偏见——例如,强制反思推理或推广特定的解决问题策略——以确保我们能够准确观察模型在 RL 过程中的自然发展。
简单来说,模版格式如下:
| 用户:问题 |
| Assistant:<think> 推理过程 <answer> 答案 </think> |
4.5 性能、自我进化过程和“顿悟时刻”
DeepSeek-R1-Zero 的性能
图 2 展示了 DeepSeek-R1-Zero 在 AIME 2024 基准测试上的性能轨迹。如图所示,随着 RL 训练的推进,DeepSeek-R1-Zero 的性能稳步提升。值得注意的是,AIME 2024 的平均 pass@1 分数显著提高,从初始的 15.6% 跃升至 71.0%,达到了与 OpenAI-o1-0912 相当的性能水平。这一显著提升突显了我们 RL 算法在优化模型性能方面的有效性。
表 2 提供了 DeepSeek-R1-Zero 与 OpenAI 的 o1-0912 模型在多种推理相关基准测试上的比较分析。结果表明,通过 RL,DeepSeek-R1-Zero 能够在没有任何监督微调数据的情况下获得强大的推理能力。这一成就值得注意,因为它突出了模型通过 RL 单独学习和泛化的能力。此外,通过应用多数投票,DeepSeek-R1-Zero 的性能可以进一步提升。例如,在 AIME 基准测试中使用多数投票时,DeepSeek-R1-Zero 的性能从 71.0% 提升至 86.7%,超过了 OpenAI-o1-0912 的表现。DeepSeek-R1-Zero 能够在有无多数投票的情况下都取得如此具有竞争力的性能,突显了其强大的基础能力以及在推理任务中进一步发展的潜力。
DeepSeek-R1-Zero 的自我进化过程
DeepSeek-R1-Zero 的自我进化过程是 RL 如何驱动模型自主提升推理能力的一个引人入胜的展示。通过直接从基础模型开始 RL,我们可以密切监测模型的发展,而不受监督微调阶段的影响。这种方法让我们能够清晰地看到模型如何随着时间的推移发展,尤其是在处理复杂推理任务方面的能力。
如图 3 所示,DeepSeek-R1-Zero 在训练过程中的平均响应长度持续增加。这种提升并非外部调整的结果,而是模型内部的自然发展。DeepSeek-R1-Zero 自然地获得了通过扩展测试时计算来解决日益复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记不等,允许模型更深入地探索和完善其思考过程。(随着训练步数的增加,模型推理思考的时间更长了,思考地更加深入和完善了)
随着测试时计算的增加,模型自然涌现出复杂的行为,例如反思——模型重新审视并重新评估之前的步骤——以及探索解决问题的替代方法。这些行为并非明确编程的结果,而是模型与强化学习环境互动的自然结果。这种自发的发展显著增强了 DeepSeek-R1-Zero 的推理能力,使其能够以更高的效率和准确性解决更具挑战性的任务。
DeepSeek-R1-Zero 的“顿悟时刻”
在 DeepSeek-R1-Zero 的训练过程中,观察到一个特别有趣的现象,即“顿悟时刻”。这一时刻如表 3 所示,发生在模型的中间版本中。在这个阶段,DeepSeek-R1-Zero 学会为问题分配更多的思考时间,通过重新评估其初始方法来实现这一点。这种行为不仅是模型推理能力增长的证明,也是强化学习能够带来意外且复杂结果的一个迷人例证。
这一时刻不仅是模型的“顿悟时刻”,也是观察其行为的研究人员的“顿悟时刻”。它突显了强化学习的力量和美丽:我们并没有明确地教导模型如何解决问题,而是仅仅提供了正确的激励,模型便自主地发展出高级的问题解决策略。“顿悟时刻” 有力地提醒我们 RL 解锁人工智能新水平的潜力,为未来更自主和适应性强的模型铺平
DeepSeek-R1-Zero的缺点
尽管 DeepSeek-R1-Zero 展示出了强大的推理能力,并且能够自主发展出意外且强大的推理行为,但它也面临一些问题。例如,DeepSeek-R1-Zero 在可读性(比如读不通)和语言混用(比如中文混用)方面存在挑战。为了使推理过程更具可读性,并与开源社区分享这些成果,我们探索了 DeepSeek-R1,这是一种利用人类友好型冷启动数据进行强化学习的方法。
有关DeepSeek-R1正式版的技术总结,将在下一篇博客中分享,尽情期待!欢迎大家一起交流学习,批评指正!