【Transformer】20、SOFT: Softmax-free Transformer with Linear Complexity

呆呆的猫

已于 2022-09-26 17:13:42 修改

阅读量3.9k

点赞数 2

CC 4.0 BY-SA版权

分类专栏： Transformer 文章标签： transformer 深度学习计算机视觉

于 2021-12-13 18:32:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/121909313

Transformer 专栏收录该内容

22 篇文章

订阅专栏

本文提出了一种名为SOFT的新方法，旨在解决基于self-attention的Transformer计算复杂度问题。作者通过移除softmax操作并引入高斯核函数，实现了softmax-free self-attention，降低了计算量。同时，利用矩阵分解进行低秩规范化，进一步减少了计算需求。实验结果显示，这种方法在保持性能的同时，显著优化了Transformer的效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

在这里插入图片描述

本文收录于 NeurIPS 2021

论文链接：https://arxiv.org/pdf/2110.11945.pdf
代码链接：https://github.com/fudan-zvg/SOFT

一、背景

基于 self-attention 的 transformer 虽然取得了较好的效果，但其计算量和内存都和是输入分辨率大小的平方。

作者认为这种计算限制来源于计算概率时使用的 softmax self-attention。

一般的 self-attention 都是计算规范化的 token 特征的内积计算得到，保持这种 softmax 操作对后面的线性化操作有些挑战。

所以，本文作者提出了 softmax-free transformer, SOFT，在 self-attention 中移除了 softmax，使用高斯核函数来代替内积，能够通过低秩矩阵分解来近似得到 self-attention 矩阵。

在这里插入图片描述

二、方法

2.1 Softmax-free self-attention formulation

在这里插入图片描述

输入为 X，要进行 attention ，首先要通过映射得到 Q, K, V：

在这里插入图片描述

self-attention 的计算如下：

在这里插入图片描述

$\alpha$ 为计算 self-attention map 的过程，由非线性函数 $\beta$ 和 relation function $\gamma$ 组成：

一般的形式如下：
在这里插入图片描述
为了简化计算，作者使用如下方式代替：

为了保持 attention matrix 的对称性，作者设定 Q 和 K 的映射函数一样，所以，本文的 self-attention matrix 如下：
在这里插入图片描述

2.2 通过矩阵分解来实现低秩规范化

为了降低计算量，作者参考 Nystrom[38] 来实现低秩矩阵近似，可以不用计算全部的 self-attention。

规范化的 self-attention matrix $\hat S$ 如下：
在这里插入图片描述

三、效果

SOFT 及其变体如下：
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

呆呆的猫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。