注
- 本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文
- 本文不包括基础的知识点讲解,为笔记/大纲性质而非教程,建议阅读技术报告原文
- 交流可发送至邮箱 [email protected]
架构核心
核心:
- MLA 高效推理
- DeepSeekMOE 更经济的训练
- MTP 提高模型性能
架构上看主要改进在于Attention层和FFN层:
MLA
参考deepseekv2的technical report内容
KV cache
类GPT模型的decoder架构在推理时一个个token输出,每一次输出都作为下一次输出的输入,带来大量重复计算。KV cache空间换时间,降低推理复杂度。
w/o KV cache:
每一次推理计算attention时,当前token前的token QK计算在前面步骤被重复计算,结果可以使用KV cache存储而非再次计算。
huggingface/transformers/gpt2的KV cache代码:
if layer_past is not None:
past_key, past_value = layer_past
key_states = torch.cat