论文速读——Pay Attention to MLPs

最新推荐文章于 2025-02-26 20:18:09 发布

yuqishen

最新推荐文章于 2025-02-26 20:18:09 发布

阅读量945

点赞数 12

CC 4.0 BY-SA版权

分类专栏：论文阅读 MLP 文章标签：论文阅读人工智能

本文链接：https://blog.csdn.net/weixin_43954673/article/details/137228390

论文速读——Pay Attention to MLPs

Abstract

Transformer [1] 已成为深度学习领域最重要的架构创新之一，并在过去几年中实现了许多突破。在这里，我们提出了一种简单的网络架构 gMLP，它基于带有门控的 MLP，并表明它在关键语言和视觉应用中的性能与 Transformer 一样好。我们的比较表明，自注意力对于 Vision Transformers 来说并不重要，因为 gMLP 可以达到相同的精度。对于 BERT，我们的模型在预训练复杂度上与 Transformer 相当，并且在一些下游 NLP 任务上表现更好。在 gMLP 表现较差的微调任务中，使 gMLP 模型变得更大可以缩小与 Transformer 的差距。总的来说，我们的实验表明，随着数据和计算的增加，gMLP 可以像 Transformer 一样进行扩展。

1 Introduction

简述了Transformers的优秀，已经成为了NLP和计算机视觉中的默认架构。Transformer 架构结合了两个重要概念：(1) 并行计算每个单独 token 的表示的无循环架构，以及 (2) 聚合跨 token 的空间信息的多头自注意力块。

自注意力的归纳偏差对于 Transformer 的卓越有效性是否至关重要仍然是一个悬而未决的问题。 $→\to$ 提出了一种基于 MLP 的 Transformer 替代方案，无需自注意力，它仅由具有静态参数化的通道投影和空间投影组成。

将gMLP用在现有的一些模型中得到很好的结果。（阐述gMLP的优势）

它表明尽管缺乏自注意力，gMLP 的规模与 Transformer 一样，并且任何性能差距都可以通过使用增加的数据和计算来训练更大的模型来弥补。

总体而言，gMLP 在视觉和 NLP 领域中令人惊讶的有效性表明，自注意力并不是扩大机器学习模型的必要成分，尽管根据任务的不同，它可能是一个有用的补充。随着数据和计算的增加，具有更简单空间交互机制（例如 gMLP）的模型可以像 Transformer 一样强大，并且分配给自注意力的容量可以被删除或大幅减少。