Transformer模型详解

原创已于 2025-03-13 20:38:15 修改 · 919 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

于 2025-03-13 20:37:21 首次发布

人工智能专栏收录该内容

16 篇文章

订阅专栏

引言

Transformer 模型是人工智能领域的突破性进展之一，自 2017 年由 Vaswani 等人提出以来，在自然语言处理（NLP）及计算机视觉等多个领域取得了广泛应用。其核心特性是基于自注意力机制（Self-Attention）和完全并行的架构，克服了传统 RNN（循环神经网络）在长距离依赖问题上的局限性。本文将详细介绍 Transformer 的基本原理、数学公式以及实际应用。

1. Transformer 的架构概述

Transformer 采用 编码器-解码器（Encoder-Decoder） 结构：

编码器（Encoder）：接收输入序列并将其转换为上下文表示。
解码器（Decoder）：利用编码器的输出生成目标序列。

一个典型的 Transformer 由多个 编码器层 和 解码器层 组成，每层包含如下两个核心组件：

多头自注意力机制（Multi-Head Self-Attention）
前馈神经网络（Feed-Forward Neural Network, FFN）

此外，Transformer 采用了 残差连接（Residual Connection） 和 层归一化（Layer Normalization） 以稳定梯度传播。

2. 自注意力机制（Self-Attention）

自注意力机制是 Transformer 的核心，它允许模型在处理序列时，不依赖于固定的顺序，而是计算输入序列中每个单词与其他单词之间的关系。其核心思想是：

2.1 计算注意力权重

给定输入序列 $\in \mathbb{R}^{n \times d}$ ，其中 $n$ 是序列长度， $d$ 是嵌入维度，我们首先通过三个可训练的矩阵将 $X$ 线性变换为 查询（Query, Q）、键（Key, K） 和 值（Value, V）：

$XW_Q, \quad K = XW_K, \quad V = XW_V$

其中， $WQ,WK,WV∈Rd×dkW_Q, W_K, W_V \in \mathbb{R}^{d \times d_k}$ 是学习参数， $d_k$ 是注意力头的维度。

2.2 计算注意力分数

使用缩放点积注意力（Scaled Dot-Product Attention）计算每个查询 $Q$ 对键 $K$ 的注意力分数：

$Attention(Q,K,V)=softmax(QKTdk)V\text{Attention}(Q, K, V) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_k}} \right) V$

其中， $dk\sqrt{d_k}$ 是缩放因子，防止内积值过大影响梯度更新。

2.3 多头注意力机制（Multi-Head Attention）

单一注意力头可能无法捕捉到足够的信息，因此 Transformer 使用多头注意力机制：

$MultiHead(Q,K,V)=Concat(head1,...,headh)WO\text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, ..., \text{head}_h) W_O$

其中，每个头 $i$ 计算独立的 $Q_i, K_i, V_i$ ，并通过独立的缩放点积注意力计算结果。

3. 位置编码（Positional Encoding）

由于 Transformer 没有内置的顺序信息，它采用 位置编码（Positional Encoding） 添加位置信息：

$PE(pos,2i)=sin⁡(pos100002i/d),PE(pos,2i+1)=cos⁡(pos100002i/d)PE_{(pos, 2i)} = \sin \left( \frac{pos}{10000^{2i/d}} \right), \quad PE_{(pos, 2i+1)} = \cos \left( \frac{pos}{10000^{2i/d}} \right)$
其中， $p os$ 是单词位置， $i$ 是维度索引。这种方法允许模型在不同长度的序列上泛化。