一、基本概念与核心思想
1.背景与发展脉络
起源与早期探索
在Transformer架构诞生前,循环神经网络(RNN)主导序列建模,但存在梯度消失和长程依赖捕捉困难的瓶颈。2014年,注意力机制首次被引入神经机器翻译(NMT),通过动态对齐源语言与目标语言词汇,缓解了传统模型的遗忘问题。2017年,Google提出Transformer架构,完全摒弃RNN,以自注意力机制为核心,开启了NLP的新纪元。
单头注意力的局限性
单头注意力通过单一视角计算全局相关性,虽简化了模型结构,但面对复杂任务时暴露明显短板:
信息捕捉单一:无法区分语法、语义等多层次特征(如“Bank”一词可能同时指向“银行”或“河岸”)。
计算冗余:高维空间易产生无效特征交互,导致模型参数利用率低。
长序列性能衰减:单一权重矩阵难以兼顾局部细节与全局结构。
多头注意力的革新
多头机制将输入分割为多个低维子空间(头),每个头独立学习不同特征模式。例如,在翻译“The cat sat on the mat”时:
头1捕捉“cat→sat”的主谓关系;
头2分析“on→mat”的介词结构;
头3识别“The→cat”的限定词关联。
通过拼接与线性融合,模型实现了多专家协作决策,显著提升了语义理解的深度与广度。
2.概要
单头注意力
通过单一视角处理输入信息,将整个特征向量(如768维)直接映射为查询&#