
一、Transformer架构:生成式AI的基石
1.1 自注意力机制:理解上下文的核心
自注意力机制是Transformer的核心创新,其计算过程可分为三个关键步骤(参考):
- 向量投影:输入词向量通过权重矩阵生成Q(Query)、K(Key)、V(Value)三组向量
- 相关性计算:通过Q与K的点积计算注意力分数,公式为:
Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q,K,V) = \text{softmax}(\frac{QK^T}{\sqrt{d_k}})VAttention</