Transformer 模型图文详解

原创

已于 2024-08-02 18:26:26 修改 · 8.4k 阅读

71 ·

CC 4.0 BY-SA版权

文章标签：

#transformer #深度学习 #人工智能

于 2024-08-02 18:24:55 首次发布

1. 前言

Transformer 架构是 google 在 2017 年的《Attention Is All You Need》论文中提出，在 NLP 的多个任务上取得了非常好的效果，可以说目前 NLP 发展都离不开transformer。最大特点是抛弃了传统的 CNN 和 RNN，整个网络结构完全是由Attention 机制组成。由于其出色性能以及对下游任务的友好性或者说下游任务仅仅微调即可得到不错效果，在计算机视觉领域不断有人尝试将 Transformer 引入，近期也出现了一些效果不错的尝试，典型的如目标检测领域的 detr 和可变形 detr，分类领域的 Vision Transformer 等等。本文从 Transformer 结构出发，结合视觉中的 Transformer 成果(具体是 vision Transformer 和 detr)进行分析。

1.1. Transformer 概览

首先，让我们先将 Transformer 模型视为一个黑盒，如下图所示。在机器翻译任务中，将一种语言的一个句子作为输入，然后将其翻译成另一种语言的一个句子作为输出。

Transformer 模型（黑盒模式）

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分：编码组件和解码组件。如下图所示：

Transformer 模型（Encoder-Decoder 架构模式）

其中，编码组件由多层编码器（Encoder）组成（在论文中作者使用了 6 层编码器，在实际使用过程中你可以尝试其他层数）。解码组件也是由相同层数的解码器（Decoder）组成（在论文也使用了 6 层）。如下图所示：

每个编码器由两个子层组成：Self-Attention 层（自注意力层）和 Position-wise Feed Forward Network（前馈网络，缩写为 FFN）如下图所示。每个编码器的结构都是相同的，但是它们使用不同的权重参数。

编码器的输入会先流入 Self-Attention 层。它可以让编码器在对特定词进行编码时使用输入句子中的其他词的信息（可以理解为：当我们翻译一个词时，不仅只关注当前的词，而且还会关注其他词的信息）。后面我们将会详细介绍 Self-Attention 的内部结构。然后，Self-Attention 层的输出会流入前馈网络。

解码器也有编码器中这两层，但是它们之间还有一个注意力层（即 Encoder-Decoder Attention），其用来帮忙解码器关注输入句子的相关部分（类似于 seq2seq 模型中的注意力）。