目录
0. 承前
如果想更加全面清晰地了解金融资产组合模型进化论的体系架构,可参考:
0. 金融资产组合模型进化全图鉴
1. 文章主旨
本文介绍了DeepSeek团队在大语言模型推理能力增强方面的开创性工作。首次证明了纯强化学习方法(DeepSeek-R1-Zero)可以显著提升模型的推理能力,无需传统的监督微调过程。通过多阶段训练方法,团队开发的DeepSeek-R1模型在AIME 2024等多个推理基准测试中达到或超过了OpenAI-o1-1217的性能。此外,研究还成功将高级推理能力蒸馏到更小的模型中,使1.5B到70B等不同规模的模型都获得了显著的性能提升。
2. 内容概述
2.1 研究背景
近年来,大语言模型经历了快速迭代和演进,但在推理能力方面仍面临以下挑战:
- 后训练(Post-training)成为完整训练流程的重要组成部分
- 现有方法在推理任务的准确性提升、社会价值对齐等方面仍需改进
- OpenAI的o1系列模型通过增加推理过程长度提升性能,但其方法细节尚未公开
- 现有的进程奖励模型(PRM)、强化学习和搜索算法等方法未能达到o1系列的性能水平
2.2 DeepSeek-R1-Zero:纯强化学习方法
DeepSeek-R1-Zero采用纯强化学习方法,直接从基础模型开始训练:
- 采用GRPO算法,无需与策略模型同等规模的评论家模型
- 使用基于规则的奖励系统,包括准确性奖励和格式奖励
- 在AIME 2024测试中达到71.0%的准确率,使用多数投票可达86.7%
- 自然形成了反思、验证等高级推理行为
2.3 DeepSeek-R1:多阶段训练方法
详细介绍了四个训练阶段:
- 冷启动阶段:
- 使用少量高质量CoT数据进行微调
- 收集数千条长链思维(CoT)数据进行初始微调
- 设计可读性模式,包括推理过程和总结部分
- 通过人工标注优化数据质量
- 面向推理的强化学习:
- 专注于编码、数学、科学等有明确解答的推理任务
- 引入语言一致性奖励,解决语言混合问题
- 结合准确性和语言一致性奖励进行训练
- 拒绝采样和监督微调:
- 使用RL检查点进行拒绝采样,生成高质量数据
- 收集约60万条推理相关训练样本
- 收集约20万条非推理任务训练样本
- 对基础模型进行两轮微调
- 全场景强化学习:
- 同时优化推理能力和人类偏好对齐
- 对推理数据使用规则奖励
- 对通用数据使用奖励模型
- 重点关注最终总结的实用性和相关性
2.4 知识蒸馏
介绍了将DeepSeek-R1知识蒸馏到小型模型的方法:
- 使用80万训练样本直接微调开源模型
- 基于Qwen和Llama系列模型进行实验
- 支持1.5B到70B不同规模的模型
- 蒸馏效果优于直接在小模型上进行强化学习
实验结果表现:
模型规模 | AIME 2024 | MATH-500 | GPQA Diamond | LiveCodeBench |
---|---|---|---|---|
1.5B | 28.9% | 52.7% | 83.9% | 33.8% |
7B | 55.5% | 83.3% | 92.8% | 49.1% |
32B | 72.6% | 94.3% | 94.3% | 62.1% |
3. 框架比喻解析
DeepSeek-R1的训练过程可以比喻为一个学生的学习成长:
- DeepSeek-R1-Zero像是天才学生,通过自主探索掌握解题技巧
- 冷启动阶段像是接受基础教育,建立正确的学习方法
- 强化学习阶段像是大量练习和自我提升
- 知识蒸馏则像是优秀学生帮助其他同学提升
4. 实验与结果
DeepSeek-R1在多个基准测试中展现出卓越性能:
4.1 推理任务
- AIME 2024:79.8% (Pass@1)
- MATH-500:97.3%
- GPQA Diamond:71.5%
- LiveCodeBench:65.9%
- Codeforces:2029 Rating (超过96.3%的人类参与者)
4.2 知识测试
- MMLU:90.8%
- MMLU-Pro:84.0%
- GPQA Diamond:71.5%
- SimpleQA:30.1%
4.3 通用能力
- AlpacaEval 2.0:87.6% (长度控制胜率)
- ArenaHard:92.3% (胜率)
- 长文本理解任务表现优异
5. 结论与展望
5.1 主要贡献
- 证明了纯强化学习可以提升LLM推理能力
- 开发了有效的多阶段训练流程
- 实现了成功的知识蒸馏
- 首次证明纯强化学习可显著提升LLM推理能力
- 开发了结合冷启动和强化学习的多阶段训练方法
- 实现了高效的知识蒸馏,使小型模型获得强大推理能力
- 开源了多个规模的蒸馏模型,推动社区发展
5.2 未来展望
- 提升通用能力
- 解决语言混合问题
- 优化提示工程
- 改进软件工程任务性能
- 增强函数调用、多轮对话等通用能力
- 解决非中英语言的混合问题
- 优化提示工程,降低对提示的敏感性
- 改进软件工程任务的训练效率和性能
- 探索更多场景的应用可能