ViT：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文阅读笔记

我来了！！！

已于 2023-03-30 19:40:28 修改

阅读量118

点赞数

CC 4.0 BY-SA版权

分类专栏：论文阅读笔记文章标签：计算机视觉人工智能深度学习

于 2023-03-30 17:08:04 首次发布

本文链接：https://blog.csdn.net/qq_45788429/article/details/129858304

论文阅读笔记专栏收录该内容

9 篇文章

订阅专栏

该文提出将Transformer架构应用于图像处理，通过卷积将图片转化为16*16的patch，结合位置编码和额外的clstoken。经过多头注意力的transformerencoder层，捕捉patch间的关系，最后使用clstoken进行分类预测。

- ICLR 2021

-本文主要工作：将Transformer运用在视觉领域上

- 网络结构

输入为一张大小为224*224的图片，将图片分成14*14个大小为16*16的patch。对每个patch进行embedding操作，使其成为一个向量。同时加入位置编码和额外的名为cls的token，用以输出分类结果

METHOD：

-token embedding

利用卷积操作将224*224的图片分割成14*14个大小为16*16的patch。具体操作为利用num_dim个窗口大小为16*16，步长也为16的卷积核进行卷积，得到14*14*num_dim的特征图，而后进行reshape操作成196*num_dim的向量。再加入位置编码positional encoding 和额外的token cls。一共组成197个维度为num_dim向量。

-transformer encoder

将197*num_dim 的向量输入N个到transformer的encoder层中。首先通过layer normalization进行层归一化，有助于网络收敛。再通过多头注意力机制捕获不同patch之间的关系，这个过程中，token cls会收集其他token的信息。

-classify

得到token cls之后，通过一个全连接层输出分类结果。