大模型建模基础：DeepSeek-V3模型结构和工程创新-CSDN博客

本文链接：https://blog.csdn.net/zcl2022show/article/details/149338310

一、DeepSeek-V3模型结构创新MLA

1、传统注意力机制面临的挑战

在理解 MLA 之前，有必要回顾一下传统的多头注意力（Multi-Head Attention, MHA）机制。在标准的 Transformer 模型中，MHA 通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力头都有独立的查询（Query, Q）、键（Key, K）和值（Value, V）矩阵。计算过程为：查询矩阵 Q 用于计算输入序列中每个位置的注意力权重；键矩阵 K 与查询矩阵 Q 计算注意力分数；值矩阵 V 根据注意力分数加权求和，得到最终输出。

然而，这种机制在处理长序列时，内存开销问题变得极为严峻。以长度为 S 的序列、每个头的维度为 d 为例，每个头的 KV 缓存大小为 2 x S x d。对于大规模模型，如此庞大的显存占用严重限制了模型的推理效率。例如，在实际应用中，当模型需要处理长篇文档或进行长时间对话时，过高的内存需求可能导致设备无法支持模型运行，或者推理速度变得极为缓慢，无法满足实时性要求。

为缓解这一问题，多查询注意力机制（MQA）和分组查询注意力机制（GQA）相继出现。MQA 让所有查询头共享一个单独的键头和值头，显著降低了内存占用，但却对注意力计算精度产生了负面影响。GQA 则是 MHA 与 MQA 的折中方案，一组查询头共享一对键头和值头，不过相较于原始 MHA，效果仍有差距。

MLA 意为 Multi-Head Latent Attention，即多头潜在注意力。这是一种创新的注意力机制，旨在提升 Transformer 模型处理长序列时的效率与性能。它通过低秩联合压缩技术，对注意力机制中的键（Key）和值（Value）进行处理，将高维数据压缩至低维，减少推理时需缓存的键值（KV）对数量，从而降低内存占用，提升推理速度；同时对查询（Query）也进行低秩压缩，减少训练时的激活内存。此外，在一些资料中，也有将其解释为 Multi - Level Attention（多层注意力机制）的情况，比如有观点认为其让 AI 可依据任务难度动态调节注意力，简单任务采用稀疏计算，复杂任务进行密集运算，提升资源利用率。还有将 MLA 解释为 Machine Learning Accelerator（机器学习加速器）的说法，称其是为深度学习任务设计的硬件模块，但这种解释在主流对 DeepSeek - V3 模型的探讨中相对少见。

2、MLA 的技术原理

(1) 低秩联合压缩

这是 MLA 的核心技术之一，其关键在于对注意力机制中的键（Key）和值（Value）进行低秩联合压缩。简单来说，就是把原本较大的数据量通过一定方式变小，以减少推理时需要缓存的键值（KV）对数量。传统的多头注意力机制中，每个头的键和值矩阵都需单独存储，处理长序列时内存开销巨大。而 MLA 框架通过低秩联合压缩技术解决了这一难题。

具体过程为：首先对输入进行低秩压缩，将维度为 d 的输入压缩到维度为 r（r <<d ），通过一个低秩变换矩阵 Wr 实现。接着，通过两个变换矩阵 Wk 和 Wv ，将低秩的 Latent_KV 扩展回原始维度 d，得到每个头的 K 和 V。最后，通过查询矩阵 Q 与 K 计算注意力分数，并使用 V 进行加权求和，得到最终输出。通过这种方式，MLA 框架大幅减少了 KV 缓存的存储需求，同时保持了模型性能。形象地说，原本模型需要一个很大的 “仓库” 来存放键值对信息，现在通过低秩压缩，“仓库” 变小了，在推理过程中内存使用减少，推理效率得以提升。

(2) 查询的低秩压缩

除对键和值进行压缩外，MLA 还对注意力查询（Query）进行低秩压缩，以减少训练过程中的激活内存。查询可理解为模型在寻找信息时提出的问题，对查询进行压缩，能让模型在训练时更节省内存资源。查询的低秩压缩通过类似的投影操作实现，通过特定的下投影矩阵，将查询向量进行低秩压缩。尽管 MLA 通过低秩压缩减少了 KV 缓存和激活内存，但依然能够保持与标准多头注意力（MHA）相当的性能，恰似一辆车经过改装后，不仅更省油（减少内存占用），速度还未变慢（性能相当）。

(3) 旋转位置嵌入（RoPE）

在处理长序列时，位置信息至关重要。例如 “我今天去了北京” 和 “今天我去了北京”，词语相同但位置不同，表达的意思可能存在差异。MLA 架构结合旋转位置嵌入（RoPE）来有效处理长序列中的位置依赖问题。RoPE 通过旋转操作将位置信息嵌入到键和查询中。对于位置 n 和维度 2i、2i + 1 ，RoPE 进行特定的旋转操作，使模型能够更好地捕捉长距离依赖关系，从而提升对长序列的处理能力。