1. DeepSeek 模型发展历程
版本 | 主要特点 | 训练方式 | 主要改进点 | MoE 结构 |
---|---|---|---|---|
DeepSeek-V1 | 基础 Transformer | 监督微调 (SFT) | 传统 Dense 计算,计算量较大 | ❌ 无 MoE |
DeepSeek-Coder | 代码优化模型 | SFT + RLHF | 增强代码能力,在 Codeforces 上表现强 | ❌ 无 MoE |
DeepSeek-V2 | 初次引入 MoE | SFT + RL | 采用 4E2A MoE,提高计算效率 | ✅ 4E2A (4 专家,激活 2) |
DeepSeek-V3 | 增强推理能力 | SFT + RL | 采用 8E2A MoE,增强数学 & 代码能力 | ✅ 8E2A |
DeepSeek-R1-Zero | 纯强化学习训练 | 纯 RL (GRPO) | 不依赖监督微调 (SFT),完全使用 RL 训练 | ✅ 8E2A + RL |
DeepSeek-R1 |