DeepSeek v3 技术报告阅读笔记

原创

已于 2025-02-14 23:00:58 修改 · 2.2k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#笔记 #自然语言处理 #语言模型 #深度学习 #机器学习 #云计算 #神经网络

于 2025-02-12 15:10:26 首次发布

在这里插入图片描述

注

本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文

本文不包括基础的知识点讲解，为笔记/大纲性质而非教程，建议阅读技术报告原文

交流可发送至邮箱 [email protected]

在这里插入图片描述

架构核心

核心：

MLA 高效推理
DeepSeekMOE 更经济的训练
MTP 提高模型性能

架构上看主要改进在于Attention层和FFN层：
在这里插入图片描述

MLA

参考deepseekv2的technical report内容

KV cache

类GPT模型的decoder架构在推理时一个个token输出，每一次输出都作为下一次输出的输入，带来大量重复计算。KV cache空间换时间，降低推理复杂度。

w/o KV cache：

每一次推理计算attention时，当前token前的token QK计算在前面步骤被重复计算，结果可以使用KV cache存储而非再次计算。
在这里插入图片描述
huggingface/transformers/gpt2的KV cache代码：

        if layer_past is not None:
            past_key, past_value = layer_past
            key_states = torch.cat

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Zhouqi_Hua

关注关注

51
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

DeepSeek-v3：开源大模型新高度，最强性能，最高性价比！（论文详解）

sherlockMa的博客

12-29

1万+

DeepSeek-V3是一个具有671B参数的大型Mixture-of-Experts语言模型，采用Multi-head Latent Attention和DeepSeekMoE架构以提高训练效率和推理性能。模型通过无辅助损失的负载平衡策略和多token预测训练目标优化，预训练于14.8万亿tokens，并经过监督微调和强化学习以提升性能。DeepSeek-V3在多个基准测试中表现优异，尤其在代码和数学任务上，与顶尖闭源模型媲美，而训练成本仅为2.788M H800 GPU小时。

DS新论文解读（2）

周博洋的博客

05-18

1122

这个概念是基于现代处理器和加速器设计中越来越流行的。

参与评论您还未登录，请先登录后发表或查看评论

DeepSeek-V3 技术报告

zephyr_wang的博客

02-12

1254

为了减少开源模型与闭源模型的能力差距，我们提出了DeepSeek-V3，一个大的混合专家模型（），有6710亿参数，每个token会激活370亿参数。DeepSeek-V3采用多头隐注意力（Multi-head）提升预测效率，和节省训练成本。此外还采用了两个策略，1）策略进行负载平衡；2）采用了multi-token prediction（MTP）训练目标，增强整体表现。为了进行高效的训练，我们采用了FP8混合精度训练；同时设计了DualPipe 算法进行并行；

利用cache缓存初始化内存

redwingz的博客

07-08

2735

系统内存的初始化涉及到内存控制器的配置，需要读取DRAM条上EEPROM存储的各种配置参数，动态配置内存控制器。用汇编语言实现稍显复杂，当前的启动引导程序（如uboot）采用C语言实现这部分功能。然而，问题是在内存未初始化之前，系统是在FLASH设备中运行的汇编，C程序不能运行（原因是C语言函数的栈操作不能在FLASH中进行，FLASH的写操作需要首先擦除再写入）。要想运行C程序就需要找到一块在内...

【大模型】Deepseek-V3技术报告

静谧、淡雅

02-06

1216

DeepSeek V3 技术报告

Deepseek v3 的笔记

晓的博客

01-03

3319

Deepseek v3是Deepseek发布的旗舰模型，属于607B的混合专家（MoE）模型，其中活跃参数为37B。在当前的模型领域，它堪称最佳的开源模型，性能超越了Llama 3.1 405b、Qwen和Mistral等知名模型。根据基准测试结果，它与OpenAI的GPT - 4o以及Claude 3.5 Sonnet处于同一水平，并且在某些任务上的表现还要更胜一筹。

Deepseek v3&R1 学习笔记

m0_73202283的博客

02-05

560

为了解决低精度可能带来的收敛问题，团队设计了细粒度的量化方案，将 Activation 按 1*128 Tile 分组，Weight 按 128*128 block 分组，并通过提高累积精度来保证训练的稳定性。不同于Mixtral中大专家的设计（将稠密模型中的MLP结构复制8份），DeepSeek-V3采用大量“小专家”的设计，能够显著提升模型的稀疏程度。相比V2的236B总参数（21B激活参数），V3更加激进地引入256个专家，总参数量达到惊人的671B，而激活参数量仅仅增加到37B。

DeepSeek系列模型技术报告的阅读笔记

qq_40737798的博客

03-07

982

DeepSeek系列模型经过不断积累，量变产生质变，本文为DeepSeek系列模型论文进行阅读后做的相关笔记，其中有错误之处请私信\评论指正。

AI大模型-DeepSeek V3搭建个人知识库教程

02-11

本教程详细介绍了如何使用 DeepSeek V3 搭建个人知识库，内容包括：前置准备：注册 DeepSeek 账号并获取 API 密钥。接入 DeepSeek：登录官网、创建密钥、选择模型。下载并安装 anythingLLM：获取并安装 ...

DeepSeek系列论文解读二之DeepSeek V3

qq_57597568的博客

02-14

1084

DeepSeek-V3是一个大型的专家混合(MoE)语言模型，总共有671B个参数，每个令牌激活37B个参数。它采用了多头潜在注意力(MLA)和DeepSeekMoE架构进行高效推理和经济高效的训练，这些在DeepSeek-V2中得到了验证。DeepSeek-V3还开创了一种无辅助损失策略来实现负载平衡，并使用多令牌预测训练目标来提高性能。该模型是在140万亿个高质量多样的令牌上预训练的，然后进行了监督微调和强化学习阶段。

DeepSeek：新版MoE语言模型技术报告

大模型任我行的博客

01-05

1528

如何解决大语言模型（LLM）在训练和推理过程中的负载均衡和性能优化？论文提出了DeepSeek-V3模型，引入了无辅助损失的负载均衡策略和多令牌预测目标，显著提升了模型性能。

【笔记】动手学Ollama 第七章应用案例 Agent应用

ReedFoley的博客

08-22

733

正文详见：7.5 使用 LangChain 实现本地 Agent。

爬小红书图片软件：根据搜索关键词，采集笔记图片、正文、评论等

python死忠3016的博客

08-23

388

摘要：一款基于Python开发的小红薯笔记采集工具，支持通过关键词采集笔记图片、正文及评论等内容。

《Bishop PRML》笔记(2) 附录D 泛函

最新发布

duoyasong5907的博客

08-23

可阅读：

【ARDUINO】ARDUINO入门笔记

随笔

08-22

438

本文总结了Arduino基础知识和L298N电机驱动模块的使用经验。主要内容包括：1）Arduino供电方式比较（USB/DC接口/Vin引脚）及使用注意事项；2）L298N模块连接问题分析，整理了5种不同连接方案的验证结果；3）关键引脚定义说明（VM/VS/VIN等）。实验发现L298N模块需注意跳线帽设置，当使用外部5V供电时需要拔除跳线帽，且电源需满足VM≥7V的要求。文章通过多个参考资料对比，为Arduino与电机驱动模块的连接提供了实践指导。

【笔记】动手学Ollama 第五章 Ollama 在 LangChain 中的使用 - Python 集成

ReedFoley的博客

08-20

778

本文介绍了如何在Python中集成Ollama模型到LangChain框架。主要内容包括：1）环境设置，包括Conda环境配置和依赖安装；2）基本使用示例，如对话模板、流式输出、工具调用和多模态处理；3）进阶用法，包括多轮对话管理、自定义提示模板设计和RAG问答系统实现。通过详细的代码示例，展示了如何利用LangChain的管道操作符"|"构建处理流程，实现模型调用、上下文管理和检索增强等功能。这些技术可应用于构建智能对话系统、信息检索工具等AI应用场景。

React 学习笔记1 组件、State

mashirokayo的博客

08-22

710

React是用于构建用户界面的JS库。React是由Facebook（Meta）开发的，是开源的。React采用组件化模式、声明式编码，可以提高开发效率，提高代码复用率。使用React Native，可以用React语法进行移动端开发，可以使用JS编写安卓和IOS应用，而不需要使用java oc swift。React使用虚拟DOM和Diffing算法，减少与真实DOM的交互。

AI 视频翻译工具的调研笔记

素质云笔记

08-20

1112

AI视频翻译工具调研

谷歌Gemma 3技术报告：新版本超越DeepSeek V3的多模态能力

资源摘要信息:"2025谷歌Gemma 3技术报告全文：27B版超过DeepSeek V3.pdf" 知识点一：Gemma 3模型概述 - Gemma 3是谷歌Deepmind推出的新一代轻量级开源模型，属于Gemma系列的多模态成员。 - 该模型提供不同参数规模...