一、DeepSeek-V3模型结构创新MLA
1、传统注意力机制面临的挑战
在理解 MLA 之前,有必要回顾一下传统的多头注意力(Multi-Head Attention, MHA)机制。在标准的 Transformer 模型中,MHA 通过并行计算多个注意力头来捕捉输入序列中的不同特征。每个注意力头都有独立的查询(Query, Q)、键(Key, K)和值(Value, V)矩阵。计算过程为:查询矩阵 Q 用于计算输入序列中每个位置的注意力权重;键矩阵 K 与查询矩阵 Q 计算注意力分数;值矩阵 V 根据注意力分数加权求和,得到最终输出。
然而,这种机制在处理长序列时,内存开销问题变得极为严峻。以长度为 S 的序列、每个头的维度为 d 为例,每个头的 KV 缓存大小为 2 x S x d。对于大规模模型,如此庞大的显存占用严重限制了模型的推理效率。例如,在实际应用中,当模型需要处理长篇文档或进行长时间对话时,过高的内存需求可能导致设备无法支持模型运行,或者推理速度变得极为缓慢,无法满足实时性要求。
为缓解这一问题,多查询注意力机制(MQA)和分组查询注意力机制(GQA)相继出现。MQA 让所有查询头共享一个单独的键头和值头,显著降低了内存占用,但却对注意力计算精度产生了负面影响。GQA 则是 MHA 与 MQA 的折中方案,一组查询头共享一对键头和值头,不过相较于原始 MHA,效果仍有差距。
MLA 意为 Multi-Head Latent Attention,即多头潜在注意力 。这是一种创新的注意力机制,旨在提升 Transformer 模型处理长序列时的效率与性能。它通过低秩联合压缩技术,对注意力机制中的键(Key)和值(Value)进行处理,将高维数据压缩至低维,减少推理时需缓存的键值(KV)对数量,从而降低内存占用,提升推理速度;同时对查询(Query)也进行低秩压缩,减少训练时的激活内存 。此外,在一些资料中,也有将其解释为 Multi - Level Attention(多层注意力机制)的情况,比如有观点认为其让 AI 可依据任务难度动态调节注意力,简单任务采用稀疏计算,复杂任务进行密集运算,提升资源利用率 。还有将 MLA 解释为 Machine Learning Accelerator(机器学习加速器)的说法 ,称其是为深度学习任务设计的硬件模块,但这种解释在主流对 DeepSeek - V3 模型的探讨中相对少见 。
2、MLA 的技术原理
(1) 低秩联合压缩
这是 MLA 的核心技术之一,其关键在于对注意力机制中的键(Key)和值(Value)进行低秩联合压缩。简单来说,就是把原本较大的数据量通过一定方式变小,以减少推理时需要缓存的键值(KV)对数量。传统的多头注意力机制中,每个头的键和值矩阵都需单独存储,处理长序列时内存开销巨大。而 MLA 框架通过低秩联合压缩技术解决了这一难题。
具体过程为:首先对输入进行低秩压缩,将维度为 d 的输入压缩到维度为 r(r <<d ),通过一个低秩变换矩阵 Wr 实现。接着,通过两个变换矩阵 Wk 和 Wv ,将低秩的 Latent_KV 扩展回原始维度 d,得到每个头的 K 和 V。最后,通过查询矩阵 Q 与 K 计算注意力分数,并使用 V 进行加权求和,得到最终输出。通过这种方式,MLA 框架大幅减少了 KV 缓存的存储需求,同时保持了模型性能。形象地说,原本模型需要一个很大的 “仓库” 来存放键值对信息,现在通过低秩压缩,“仓库” 变小了,在推理过程中内存使用减少,推理效率得以提升。
(2) 查询的低秩压缩
除对键和值进行压缩外,MLA 还对注意力查询(Query)进行低秩压缩,以减少训练过程中的激活内存。查询可理解为模型在寻找信息时提出的问题,对查询进行压缩,能让模型在训练时更节省内存资源。查询的低秩压缩通过类似的投影操作实现,通过特定的下投影矩阵,将查询向量进行低秩压缩。尽管 MLA 通过低秩压缩减少了 KV 缓存和激活内存,但依然能够保持与标准多头注意力(MHA)相当的性能,恰似一辆车经过改装后,不仅更省油(减少内存占用),速度还未变慢(性能相当)。
(3) 旋转位置嵌入(RoPE)
在处理长序列时,位置信息至关重要。例如 “我今天去了北京” 和 “今天我去了北京”,词语相同但位置不同,表达的意思可能存在差异。MLA 架构结合旋转位置嵌入(RoPE)来有效处理长序列中的位置依赖问题。RoPE 通过旋转操作将位置信息嵌入到键和查询中。对于位置 n 和维度 2i、2i + 1 ,RoPE 进行特定的旋转操作,使模型能够更好地捕捉长距离依赖关系,从而提升对长序列的处理能力。
3、MLA 的优势
(1) 内存占用少
低秩联合压缩和查询的低秩压缩,使得 KV 缓存和激活内存显著减少,降低了模型在推理和训练时对内存的需求。这一优势使得模型能够在资源有限的设备上运行,例如在一些内存较小的边缘设备上,传统模型可能因内存不足无法运行,而采用 MLA 的 DeepSeek-V3 模型则有可能顺利部署并执行任务。
(2) 推理效率高
内存占用的减少使得模型处理信息的速度加快,能够更高效地生成结果。在对话系统中,这意味着可以更快地回复用户问题,提升用户体验。以在线客服场景为例,快速的推理速度能够让用户在提问后迅速得到准确回答,避免长时间等待,提高客户满意度。
(3) 长序列处理能力强
结合 RoPE,模型能够更好地处理长序列,理解文本中长距离的依赖关系,在处理长篇文档时表现更为出色。在文献综述、合同审查等需要处理大量文本的任务中,DeepSeek-V3 凭借 MLA 对长序列的良好处理能力,能够更准确地提取关键信息、理解文档主旨,相比其他模型具有明显优势。
4、MLA 在 DeepSeek-V3 中的应用效果
从模型整体架构来看&#x