论文速读——Pay Attention to MLPs

论文速读——Pay Attention to MLPs

Abstract

Transformer [1] 已成为深度学习领域最重要的架构创新之一,并在过去几年中实现了许多突破。在这里,我们提出了一种简单的网络架构 gMLP,它基于带有门控的 MLP,并表明它在关键语言和视觉应用中的性能与 Transformer 一样好。我们的比较表明,自注意力对于 Vision Transformers 来说并不重要,因为 gMLP 可以达到相同的精度。对于 BERT,我们的模型在预训练复杂度上与 Transformer 相当,并且在一些下游 NLP 任务上表现更好。在 gMLP 表现较差的微调任务中,使 gMLP 模型变得更大可以缩小与 Transformer 的差距。总的来说,我们的实验表明,随着数据和计算的增加,gMLP 可以像 Transformer 一样进行扩展。

1 Introduction

简述了Transformers的优秀,已经成为了NLP和计算机视觉中的默认架构。Transformer 架构结合了两个重要概念:(1) 并行计算每个单独 token 的表示的无循环架构,以及 (2) 聚合跨 token 的空间信息的多头自注意力块。

自注意力的归纳偏差对于 Transformer 的卓越有效性是否至关重要仍然是一个悬而未决的问题。→\to 提出了一种基于 MLP 的 Transformer 替代方案,无需自注意力,它仅由具有静态参数化的通道投影和空间投影组成。

将gMLP用在现有的一些模型中得到很好的结果。(阐述gMLP的优势)

它表明尽管缺乏自注意力,gMLP 的规模与 Transformer 一样,并且任何性能差距都可以通过使用增加的数据和计算来训练更大的模型来弥补。

总体而言,gMLP 在视觉和 NLP 领域中令人惊讶的有效性表明,自注意力并不是扩大机器学习模型的必要成分,尽管根据任务的不同,它可能是一个有用的补充。随着数据和计算的增加,具有更简单空间交互机制(例如 gMLP)的模型可以像 Transformer 一样强大,并且分配给自注意力的容量可以被删除或大幅减少。

2 Model

模型是由一堆具有相同大小和结构的L个块组成,令X∈Rn×dX\in \Bbb R ^{n\times d}XRn×d ,序列长度为nnn,维度为ddd 。每个块定义为:
Z=σ(XU),Z~=s(Z),Y=Z~V(1) Z=\sigma (XU) ,\qquad \tilde Z=s(Z),\qquad Y=\tilde ZV \tag1 Z=σ(XU),Z~=s(Z),Y

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值