神经网络-视觉-Vision Transformer(VIT)

ViT 小结

题为“AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE”,作者包括Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov等,主要来自Google Research的Brain Team。

文章的核心观点是,尽管Transformer架构已成为自然语言处理(NLP)任务的事实标准,但在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制通常是与卷积网络结合使用,或者用来替代卷积网络的某些部分,同时保持其整体结构不变。作者展示了这种对卷积网络(CNNs)的依赖并不是必要的,一个直接应用于图像块序列的纯Transformer能够在图像分类任务上表现得非常好。

文章的主要贡献包括:

  1. 提出了Vision Transformer(ViT),这是一个直接应用于图像的Transformer模型,通过将图像分割成固定大小的图像块,然后将这些图像块的线性嵌入作为Transformer的输入序列。

  1. 证明了当在大量数据上预训练并迁移到中小规模的图像识别基准测试(如ImageNet、CIFAR-100、VTAB等)时,ViT能够达到与最先进的卷积网络相媲美甚至更好的结果,同时在训练过程中需要的计算资源更少。

  1. 通过在大规模数据集(如ImageNet-21k和JFT-300M)上进行预训练,ViT在多个图像识别基准测试中接近或达到了最先进的水平。

  1. 展示了Transformer在图像识别任务中的潜力,特别是在处理大规模数据集时,其性能可以超越传统的卷积神经网络。

文章还讨论了Transformer在计算机视觉任务中的相关工作,并详细描述了ViT模型的设计和实现。此外,作者还探讨了ViT的内部表示,并通过可视化展示了注意力机制是如何在整个图像中整合信息的。

总体而言,这篇文章为Transformer在计算机视觉领域的发展和应用提供了重要的见解,并为未来的研究开辟了新的方向。

0 abstract

虽然Transformer架构已成为自然语言处理任务的实际标准,但其在计算机视觉领域的应用仍然有限。在视觉领域,注意力机制要么是与卷积网络结合使用,要么用来替代卷积网络的某些组成部分,同时保持其整体结构不变。我们展示了这种对卷积网络的依赖并非必要,一个直接应用于图像块序列的纯Transformer能够在图像分类任务上表现得非常好。当在大量数据上进行预训练并迁移到多个中等规模或小型图像识别基准(如ImageNet、CIFAR-100、VTAB等)时,视觉Transformer(ViT)与最先进的卷积网络相比,取得了卓越的结果,同时在训练过程中需要的计算资源大大减少。

1 introduction

基于自注意力的架构,特别是Transformers(Vaswani等人,2017年),已经成为自然语言处理(NLP)的首选模型。主要的方法是在大型文本语料库上进行预训练,然后对较小的任务特定数据集进行微调(Devlin等人,2019年)。由于Transformers的计算效率和可扩展性,现在有可能训练具有前所未有的规模的模型,参数超过100B(Brown等人,2020年;Lepikhin等人,2020年)。随着模型和数据集的增长,性能饱和的迹象仍然没有出现。

然而,在计算机视觉领域,卷积架构仍然占据主导地位(LeCun等人,1989年;Krizhevsky等人,2012年;He等人,2016年)。受到自然语言处理成功案例的启发,许多研究尝试将类似CNN的架构与自注意力机制相结合(Wang等人,2018年;Carion等人,2020年),有些甚至完全替代了卷积运算(Ramachandran等人,2019年;Wang等人,2020年)。尽管后者在理论上是高效的,但由于使用了专门的注意力模式,这些模型尚未在现代硬件加速器上有效地扩展。因此,在大规模图像识别领域,经典的类似ResNet的架构仍然是最先进的(Mahajan等人,2018年;Xie等人,2020年;Kolesnikov等人,2020年)。

受到自然语言处理领域中Transformer扩展成功的启发,我们尝试将标准Transformer直接应用于图像,并尽可能少地进行修改。为此,我们将图像分割成若干块,并提供这些块的线性嵌入序列作为Transformer的输入。在图像处理中,图像块被当作自然语言处理应用中的词元(单词)来对待。我们以监督学习的方式训练模型进行图像分类。

在没有强正则化的情况下,当在像ImageNet这样的中等规模数据集上训练时,这些模型的准确率比相似大小的ResNets低几个百分点。这种看似令人气馁的结果是可以预期的:Transformer缺乏CNN固有的一些归纳偏好,比如平移等变性和局部性,因此当在数据量不足的情况下训练时,它们的泛化能力并不好。

2 RELATED WORK

Transformer模型由Vaswani等人在2017年提出,用于机器翻译,并且自那时起已经成为许多自然语言处理(NLP)任务中的最新技术方法。大型基于Transformer的模型通常在大型语料库上进行预训练,然后针对手头的任务进行微调:BERT(Devlin等人,2019年)使用去噪自监督预训练任务,而GPT系列工作则将语言建模作为其预训练任务(Radford等人,2018年;2019年;Brown等人,2020年)。

直接将自注意力机制应用于图像,将要求每个像素都与其他每个像素进行交互。由于像素数量的二次方成本,这种方法无法扩展到实际的输入尺寸。因此,为了在图像处理的背景下应用Transformer,过去已经尝试了几种近似方法。Parmar等人(2018年)对每个查询像素仅在局部邻域而不是全局应用自注意力。这样的局部多头点积自注意力模块可以完全替代卷积(Hu等人,2019年;Ramachandran等人,2019年;Zhao等人,2020年)。

在另一条研究线上,稀疏Transformer(Child等人,2019年)采用可扩展的全局自注意力近似方法,以便应用于图像。另一种扩展注意力的方法是将其以不同大小的块应用(Weissenborn等人,2019年),在极端情况下仅沿单个轴(Ho等人,2019年;Wang等人,2020年)。这些专门的注意力架构在计算机视觉任务上展示了有希望的结果,但需要复杂的工程实施才能在硬件加速器上高效实现。

与我们的工作最相关的是Cordonnier等人(2020年)的模型,该模型从输入图像中提取2×2大小的块,并在顶部应用完全自注意力。这个模型与ViT非常相似,但我们的工作更进一步,证明了大规模预训练可以使普通的Transformer与最先进的CNN相媲美(甚至更优)。此外,Cordonnier等人(2020年)使用的是2×2像素的小尺寸块,这使得模型只适用于小分辨率图像,而我们同时处理中等分辨率图像。

将卷积神经网络(CNNs)与自注意力机制相结合也引起了广泛的兴趣,例如通过增强图像分类的特征图(Bello等人,2019年),或者通过使用自注意力进一步处理CNN的输出,例如用于目标检测(Hu等人,2018年;Carion等人,2020年)、视频处理(Wang等人,2018年;Sun等人,2019年)、图像分类(Wu等人,2020年)、无监督目标发现(Locatello等人,2020年),或统一的文本-视觉任务(Chen等人,2020年;Lu等人,2019年;Li等人,2019年)。

另一个相关的近期模型是图像GPT(iGPT)(Chen等人,2020年),该模型在降低图像分辨率和颜色空间后将Transformer应用于图像像素。该模型以无监督的方式作为生成模型进行训练,然后可以得到的表征可以进行微调或线性探测以用于分类性能,实现了在ImageNet上最高72%的准确率。

我们的工作增加了越来越多探索 比标准ImageNet数据集更大规模图像识别的研究文献。使用额外的数据源可以在标准基准测试中取得最先进的结果(Mahajan等人,2018年;Touvron等人,2019年;Xie等人,2020年)。此外,Sun等人(2017年)研究了CNN性能如何随着数据集规模的增加而扩展,而Kolesnikov等人(2020年)和Djolonga等人(2020年)对来自大规模数据集(如ImageNet-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据分析能量站

谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值