一、自注意力层(Self-Attention Layer)并行处理目标序列
自注意力层的任务是计算输入序列中每个位置之间的关系,并生成每个位置的表示。这一过程可以并行处理,因为它并不依赖于前一个位置的计算结果。
自注意力机制的具体步骤
1.输入嵌入与位置编码
目标序列的前缀(如 "\<start> I am a")经过词嵌入层和位置编码,得到每个时间步的嵌入表示。
2. 生成查询、键、值向量
对于输入序列的每个时间步,通过线性变换生成查询(Query)、键(Key)、值(Value)向量。对于时间步 \( t \),表示为 \( Q_t, K_t, V_t \)。
3.计算注意力得分
并行计算所有时间步之间的注意力得分:
\[
\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right) V
\]
&nb