Self-attention的公式及参数量？为什么用多头？为什么要除以根号d？

### Self-Attention Mechanism 的数学公式 Self-attention 机制的核心在于通过查询 (Query)、键 (Key) 和值 (Value) 来计算加权平均值。具体来说，给定输入序列 \( X \in \mathbb{R}^{n \times d_{\text{model}}} \)，其中 \( n \) 是序列长度，\( d_{\text{model}} \) 是模型的隐藏层维度，self-attention 可以表示为： \[ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V \] 这里， - 查询矩阵 \( Q \in \mathbb{R}^{n \times d_k} \), - 键矩阵 \( K \in \mathbb{R}^{n \times d_k} \), - 值矩阵 \( V \in \mathbb{R}^{n \times d_v} \). 这些矩阵由线性变换得到: \[ Q = XW_Q,\quad K = XW_K,\quad V = XW_V \] 其中 \( W_Q, W_K, W_V \) 分别是权重矩阵。对于单个头部注意力机制而言，参数数量主要来源于这三个投影矩阵 \( W_Q, W_K, W_V \): \[ \text{Parameter Count per Head} = d_{\text{model}} \cdot d_k + d_{\text{model}} \cdot d_k + d_{\text{model}} \cdot d_v \] 如果考虑多头注意力，则总参数量会乘上头的数量 \( h \)[^1]。 ### 多头注意力的作用多头注意力允许模型在同一位置关注不同子空间的信息。这有助于捕获更丰富的特征组合，并且可以看作是对单一注意力头的一种扩展形式。相比仅使用一个较大的注意力头来完成所有工作，多个较小规模但独立运作的小型注意力头能够更好地捕捉复杂模式并减少过拟合风险。 ### 缩放因子原因在原始实现中引入了缩放因子即除以根号下键向量维数 (\( \sqrt{d_k} \)) ，主要是为了避免点积结果过大而导致 softmax 函数梯度消失问题。当两个高斯分布随机变量相乘时其方差增大至原方差平方倍；因此，在实际应用过程中如果不加以控制可能会造成数值不稳定现象发生 . ```python import math def scaled_dot_product_attention(query, key, value): dk = query.size(-1) scores = torch.matmul(query, key.transpose(-2, -1)) / math.sqrt(dk) attn_weights = torch.softmax(scores, dim=-1) output = torch.matmul(attn_weights, value) return output, attn_weights ```

阅读全文

Self-attention的公式及参数量？为什么用多头？为什么要除以根号d？

相关推荐

1207-极智开发-解读为什么self-attention可以堆叠多层及示例代码

Self-Attention-Keras：自我关注与文本分类

keras-self-attention:处理顺序数据的注意力机制，考虑每个时间戳的上下文

多头自注意力机制dk为什么开根号

multi-head attention 代码

Transformer多头注意力机制的计算公式

Multihead attention

Attention Is All You Need

GMSA多头自注意力机制

tf的多头自注意力代码

自注意力和多头自注意力

自注意力机制和多头自注意力机制

缩放点积注意力机制和多头注意力机制

注意力机制网络公式

工业自动化领域中步科触摸屏与台达VFD-M变频器通讯实现电机控制功能 - 电机控制

langchain4j-community-core-1.0.0-beta4.jar中文-英文对照文档.zip

介电弹性体PID DEA模型的参数配置、控制策略与MatlabSimulink建模研究 实战版

pso_uav.zip

计算机网络试卷(最终).doc

大家在看

KGM转MP3或者FLAC_kgma_kgma格式_FLAC_kgma转换器_kgm转换成flac_亲测完美转换！保证可用。

农行银企直联

波恩癫痫脑电5种类.zip

FT232RL_Windows_Win10_Drivers.zip

STM8 LIN2.x 协议栈

最新推荐

工业自动化领域中步科触摸屏与台达VFD-M变频器通讯实现电机控制功能 - 电机控制

Webdiy.net新闻系统v1.0企业版发布：功能强大、易操作

【Windows 11用户的福音】：一步到位解决GX Works2安装问题，让兼容性不再是问题！

电磁加热双边谐振和单边谐振的区别

EnvMan源代码压缩包内容及功能解析

【Windows 11终极解决方案】：彻底攻克GX Works2安装中难缠的.Net Framework 3.5障碍！

贝叶斯gmm

威海卫国旅游网美化版网站建设意向表下载

【FPGA设计高手必读】：高效除法的实现与基2 SRT算法优化

单片机的NOP指令时间看单片机的什么速率

介电弹性体PID DEA模型的参数配置、控制策略与MatlabSimulink建模研究实战版