多头注意力与单头注意力介绍以及代码细节

一、基本概念与核心思想​​

1.背景与发展脉络​​
​​起源与早期探索​​
在Transformer架构诞生前,循环神经网络(RNN)主导序列建模,但存在​​梯度消失​​和​​长程依赖捕捉困难​​的瓶颈。2014年,注意力机制首次被引入神经机器翻译(NMT),通过动态对齐源语言与目标语言词汇,缓解了传统模型的遗忘问题。2017年,Google提出Transformer架构,完全摒弃RNN,以​​自注意力机制​​为核心,开启了NLP的新纪元。
​​单头注意力的局限性​​
单头注意力通过单一视角计算全局相关性,虽简化了模型结构,但面对复杂任务时暴露明显短板:
​​信息捕捉单一​​:无法区分语法、语义等多层次特征(如“Bank”一词可能同时指向“银行”或“河岸”)。
​​计算冗余​​:高维空间易产生无效特征交互,导致模型参数利用率低。
​​长序列性能衰减​​:单一权重矩阵难以兼顾局部细节与全局结构。
​​多头注意力的革新​​
多头机制将输入分割为多个低维子空间(头),每个头独立学习不同特征模式。例如,在翻译“The cat sat on the mat”时:
​​头1​​捕捉“cat→sat”的主谓关系;
​​头2​​分析“on→mat”的介词结构;
​​头3​​识别“The→cat”的限定词关联。
通过拼接与线性融合,模型实现了​​多专家协作决策​​,显著提升了语义理解的深度与广度。

2.概要

​​单头注意力​​
通过单一视角处理输入信息,将整个特征向量(如768维)直接映射为查询&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

thesky123456

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值