DeepSeek 技术重点分析

1. DeepSeek 模型发展历程

版本 主要特点 训练方式 主要改进点 MoE 结构
DeepSeek-V1 基础 Transformer 监督微调 (SFT) 传统 Dense 计算,计算量较大 ❌ 无 MoE
DeepSeek-Coder 代码优化模型 SFT + RLHF 增强代码能力,在 Codeforces 上表现强 ❌ 无 MoE
DeepSeek-V2 初次引入 MoE SFT + RL 采用 4E2A MoE,提高计算效率 ✅ 4E2A (4 专家,激活 2)
DeepSeek-V3 增强推理能力 SFT + RL 采用 8E2A MoE,增强数学 & 代码能力 ✅ 8E2A
DeepSeek-R1-Zero 纯强化学习训练 纯 RL (GRPO) 不依赖监督微调 (SFT),完全使用 RL 训练 ✅ 8E2A + RL
DeepSeek-R1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值