【第16篇】Vision Transformer

本文探讨了Transformer架构在计算机视觉领域的应用,尤其是Vision Transformer (ViT)。研究发现,ViT在大规模数据预训练后,在多个图像识别基准上表现出与最先进的CNN竞争或超越的性能,而无需依赖CNN的归纳偏差。尽管在小数据集上可能不如CNN,但随着数据量增加,ViT的优势逐渐显现。ViT的潜力在于其在数据和计算资源有限的情况下,仍能实现优秀的效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

image-20220323164916607
论文连接:https://arxiv.org/abs/2010.11929
GitHub·:https://github.com/google-research/vision_transformer

摘要

虽然 Transformer 架构已成为自然语言处理任务的事实标准,但其在计算机视觉中的应用仍然有限。 在视觉上,注意力要么与卷积网络结合使用,要么用于替换卷积网络的某些组件,同时保持其整体结构不变。 我们表明,这种对 CNN 的依赖是不必要的,直接应用于图像块序列的纯变换器可以在图像分类任务上表现得非常好。 当对大量数据进行预训练并转移到多个中型或小型图像识别基准(ImageNet、CIFAR-100、VTAB 等)时,与 state-of-the- 相比,Vision Transformer (ViT) 获得了出色的结果 艺术卷积网络,同时需要更少的计算资源来训练。

1 简介

基于自注意力的架构,尤其是 Transformers,已成为自然语言处理 (NLP) 的首选模型。主要方法是在大型文本语料库上进行预训练,然后在较小的特定任务数据集上进行微调。由于 Transformers 的计算效率和可扩展性,训练具有超过 100B 参数的前所未有的模型成为可能。随着模型和数据集的增长,仍然没有饱和性能的迹象。

然而,在计算机视觉中,卷积架构仍然占主导地位。受 NLP 成功

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI智韵

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值