On the Robustness of Vision Transformers to Adversarial Examples
本文 “On the Robustness of Vision Transformers to Adversarial Examples” 围绕视觉 Transformer(ViT)对对抗样本的鲁棒性展开研究。通过白盒攻击和黑盒攻击测试多种 ViT、BiT-M 和 CNN,发现 ViT 在白盒攻击下和其他模型一样脆弱;同时,研究发现对抗样本在不同模型类别间迁移率较低。为此提出用不同模型的集成作为防御手段,设计自注意力混合梯度攻击证明集成防御在黑盒攻击下,基于集成的防御能显著提升鲁棒性,且不牺牲干净准确率。
摘要-Abstract
Recent advances in attention-based networks have shown that Vision Transformers can achieve state-of-the-art or near state-of-the-art results on many image classification tasks. This puts transformers in the unique position of being a promising alternative to traditional convolutional neural networks (CNNs). While CNNs have been carefully studied with respect to adversarial attacks, the same cannot be said of Vision Transformers. In this paper, we study the robustness of Vision Transformers to adversarial examples. Our analyses of transformer security is divided into three parts. First, we test the transformer under standard whitebox and black-box attacks. Second, we study the transferability of adversarial examples between CNNs and transformers. We show that adversarial examples do not readily transfer between CNNs and transformers. Based on this finding, we analyze the security of a simple ensemble defense of CNNs and transformers. By creating a new attack, the self-attention blended gradient attack, we show that such an ensemble is not secure under a white-box adversary. However, under a black-box adversary, we show that an ensemble can achieve unprecedented robustness without sacrificing clean accuracy. Our analysis for this work is done using six types of white-box attacks and two types of black-box attacks. Our study encompasses multiple Vision Transformers, Big Transfer Models and CNN architectures trained on CIFAR-10, CIFAR-100 and ImageNet.
基于注意力的网络的最新进展表明,视觉 Transformer(Vision Transformers)可以在许多图像分类任务上取得最先进或接近最先进的成果。这使得 Transformer 处于一个独特的地位,有望成为传统卷积神经网络(CNNs)的替代方案。虽然针对对抗攻击对 CNNs 进行了深入研究,但对于视觉 Transformer 却并非如此。在本文中,我们研究了视觉 Transformer 对对抗样本的鲁棒性。我们对 Transformer 安全性的分析分为三个部分。首先,我们在标准的白盒和黑盒攻击下测试 Transformer。其次,我们研究了对抗样本在 CNNs 和 Transformer 之间的可迁移性。我们发现对抗样本不容易在 CNNs 和 Transformer 之间迁移。基于这一发现,我们分析了 CNNs 和 Transformer 的简单集成防御的安全性。通过创建一种新的攻击——自注意力混合梯度攻击,我们表明这种集成在白盒攻击者面前并不安全。然而,在黑盒攻击者面前,我们表明一种集成可以在不牺牲干净准确率的情况下实现前所未有的鲁棒性。我们这项工作的分析使用了六种白盒攻击和两种黑盒攻击。我们的研究涵盖了在 CIFAR-10、CIFAR-100 和 ImageNet 上训练的多种视觉 Transformer、Big Transfer Models 和 CNN 架构。
引言-Introduction
该部分先介绍了视觉任务与自然语言处理领域的常用模型,引出对抗样本的概念,指出目前针对 Vision Transformers 在对抗攻击方面研究不足,进而提出本文的研究问题。具体内容如下:
- 视觉与自然语言处理的常用模型:在视觉任务中,卷积神经网络(CNNs)是事实上的标准架构;而在自然语言处理(NLP)中,基于注意力机制的 Transformer 是最常用的模型之一。受 Transformer 在 NLP 领域成功的启发,研究人员尝试将自注意力机制应用于图像处理任务,其中 Vision Transformers(ViT)通过将图像划分为多个 patch 进行处理和训练,在多个图像分类任务中取得了接近或达到当前最优的结果。同时,通过在大规模数据集(如 ImageNet-21K 或 JFT)上预训练,再在较小数据集上微调的方式,CNNs(如 Big Transfer Models,BiT-M)也能在相关图像分类任务中表现出色。
- CNNs 的对抗样本问题:CNNs 虽然在视觉任务中表现优异,但存在对对抗样本敏感的问题。对抗样本是在正常输入图像上添加微小扰动,使得 CNNs 会将其错误分类且置信度很高。攻击者生成对抗样本主要基于白盒和黑盒两种威胁模型。在白盒攻击中,攻击者可以获取模型的参数(架构和训练权重),直接从模型中获取梯度信息来生成对抗样本;在黑盒攻击中,攻击者不知道模型的参数和架构,但可以通过反复查询模型或构建自己的合成模型来估计梯度信息并生成对抗样本。此外,研究表明由 CNNs 生成的对抗样本具有迁移性,即针对一个 CNNs 生成的对抗样本,往往也能使其他 CNNs 误分类。目前,关于 CNNs 对抗攻击和防御的研究已经有大量文献。
- Vision Transformers 的研究空白与本文研究问题:与 CNNs 相比,Vision Transformers 在对抗攻击背景下尚未得到深入研究。本文旨在探究Vision Transformers 的出现如何推动对抗机器学习领域的发展,具体聚焦于基于图像的对抗攻击,围绕以下几个问题展开研究:在白盒攻击下,Vision Transformers 相比 CNNs 在安全性上是否有提升?Vision Transformers 与其他模型之间对抗样本的迁移性如何?如何利用这种迁移性现象来提升安全性?后续章节将针对这些问题进行具体分析和讨论。
相关工作-Related Work
该部分主要回顾了自然语言处理(NLP)领域中 Transformer 在对抗攻击方面的研究成果,并指出从视觉角度深入分析 Transformer 对抗属性的工作较少,强调了本文研究的创新性和重要性。具体内容如下:
- NLP 领域 Transformer 的对抗研究
- 生成自然对抗样本:文献 [18] 分析了用于神经机器翻译的 Transformer 和用于情感与蕴含分类的 BERT 这两种自注意力架构,提出了生成更自然且保留语义的对抗样本的算法,并从理论上解释了自注意力结构在 NLP 中对小对抗扰动比基于 LSTM 的架构更具鲁棒性。
- 验证模型鲁棒性:文献 [31] 研究了自注意力层之间包括交叉非线性和交叉位置的复杂关系,开发了一种用于 Transformer 的鲁棒性验证算法,但由于大规模预训练模型(如 BERT)难以用其方法进行严格验证,所以未使用。
- 预训练对鲁棒性的影响:文献 [17] 对 NLP 中的大型预训练 Transformer 模型(如 BERT)进行研究,推测大量数据的预训练以及自监督训练可能有助于提升模型的鲁棒性。
- 解释模型内部信息交互:文献 [15] 提出了一种自注意力归因方法,以 BERT 为例进行实验,识别重要的注意力头,提取各层最显著的依赖关系来构建归因树,进而提取对抗模式对 BERT 实施非针对性攻击。
- 视觉领域 Transformer 对抗研究的现状:上述工作表明 NLP 领域对 Transformer 的对抗研究已较为丰富,但目前从视觉角度深入分析 Transformer 对抗属性的研究较少,本文是首次进行此类深入研究。
针对视觉 Transformers 的白盒攻击-White-Box Attacks on Vision Transformers
该部分主要研究在白盒攻击下视觉 Transformer(ViT)的安全性,通过实验对比多种攻击方法对不同模型的效果,得出 ViT 在白盒攻击下并不比其他模型更具安全性的结论。具体内容如下:
- 对抗模型、分类器及白盒攻击选择
- 对抗模型设定:假设攻击者知晓模型架构和训练参数,可在一定扰动范围 ϵ \epsilon ϵ 内对原始输入 x x x 进行扰动生成对抗样本 x a d v x_{adv} xadv ,以 ∥ x − x a d v ∥ ∞ ≤ ϵ \left\|x - x_{adv}\right\|_{\infty} \leq \epsilon ∥x−xadv∥∞≤ϵ 为约束,若生成的 x a d v x_{adv} xadv 能使分类器误分类(非针对性攻击)则攻击成功。在 CIFAR-10 和 CIFAR-100 数据集上, ϵ = 0.031 \epsilon = 0.031 ϵ=0.031;在 ImageNet 数据集上, ϵ = 0.062 \epsilon = 0.062 ϵ=0.062。
- 白盒攻击方法:选用 6 种白盒攻击方法测试模型。包括基础的快速梯度符号法(FGSM),以及更强的多步攻击动量迭代法(MIM)、投影梯度下降法(PGD)、自适应投影梯度下降法(APGD),用于生成极小不可察觉对抗噪声的Carlini和Wagner(C&W)攻击,还有用于克服梯度掩码的反向传播可微近似(BPDA)攻击。
- 分类器模型:针对 ViT,选择不同 patch 大小(如 ViT-B-32、ViT-B-16)和模型复杂度(ViT-B-16、ViT-L-16)的模型,以及结合自注意力层和传统 CNN 的 ViT-R50 模型。对 Big Transfer Model(BiT-M),选择 BiT-M-R50 和BiT-M-R101x3;对于传统 ResNets,选择 ResNet-56 和 ResNet164。在CIFAR-10 和 CIFAR-100 数据集上共攻击 8 个模型,在 ImageNet 数据集上攻击 7 个模型。
- 白盒攻击分析:对 CIFAR-10 和 ImageNet 数据集进行 6 种白盒攻击实验,每个攻击使用 1000 个样本测试,结果表明 CIFAR-10 和 CIFAR-100 趋势相似。从实验数据可知,ViT 在白盒攻击下并不比 BiT-M 或传统 CNNs 更具安全性。在 C&W 和 APGD 攻击下,ViT 的鲁棒准确率为 0%;在 PGD 和 MIM 攻击下,其鲁棒准确率在所有数据集上均低于6%。
表1. 对视觉 Transformer、Big Transfer Models 和残差网络(ResNets)的白盒攻击。攻击采用 l ∞ l_{\infty} l∞ 范数,在 CIFAR-10 数据集上 ϵ \epsilon ϵ 取值为0.031,在 ImageNet 数据集上 ϵ \epsilon ϵ 取值为0.062。CIFAR-100 数据集的白盒攻击结果与 CIFAR-10 极为相似,为简洁起见,CIFAR-100 的白盒攻击结果见补充材料。此表给出了每次相应攻击的鲁棒准确率。最后一列 “Acc” 指的是模型的原始准确率(未受攻击时的准确率)。
视觉 Transformer 迁移性研究-Vision Transformers Transferability Study
这部分主要研究了视觉 Transformer(ViT)生成的对抗样本的可迁移性,通过定义衡量指标、设置实验进行研究分析,发现不同模型类别间对抗样本的可迁移性普遍较低。具体内容如下:
- 衡量可迁移性:形式化定义非针对性可迁移性,从一个能正确分类输入/标签对 ( x , y ) (x, y) (x,y) 的分类器 C i C_{i} Ci 出发,使用攻击 A C i A_{C_{i}} ACi 生成对抗样本 x a d v x_{adv} xadv,若 x a d v x_{adv} xadv 能使 n − 1 n - 1 n−1 个其他分类器误分类,且这些分类器都能正确分类 x x x,则认为对抗样本从 C i C_{i} Ci 迁移到了其他分类器。对于两个分类器的情况,可定义从 C i C_{i} Ci 到 C j C_{j} Cj 的可迁移性 t i , j t_{i, j} ti,j 为 t i , j = 1 m ∑ k = 1 m { 1 i f C j ( A C i ( x k , y k ) ) ≠ y k , 0 o t h e r w i s e . t_{i, j}=\frac{1}{m} \sum_{k = 1}^{m} \begin{cases}1 & if C_{j}(A_{C_{i}}(x_{k}, y_{k})) \neq y_{k}, \\ 0 & otherwise. \end{cases} ti,j=m1∑k=1m{10ifCj(ACi(xk,yk))=yk,otherwise.,其中 m m m 是两个分类器都能正确分类的样本数量。较高的可迁移性意味着分类器对同一组对抗样本存在共同脆弱性,低可迁移性则可能为提升安全性提供思路。
- 可迁移性研究设置:为研究 ViT、BiT-M 和传统 CNNs 之间对抗样本的可迁移性,在 CIFAR-10 和 CIFAR-100 数据集上使用与第 3.1 节相同的 8 个模型,在 ImageNet 数据集上使用相同的 7 个模型。针对每对分类器,找到 1000 个它们都能正确识别的样本,使用 FGSM、PGD 和 MIM 三种攻击生成对抗样本,并报告最高的可迁移性结果。实验中使用与第 3.1 节相同的 ϵ \epsilon ϵ 和 l ∞ l_{\infty} l∞ 范数,更多实验细节在补充材料中提供。
- 分析可迁移性研究:通过对 CIFAR-10、CIFAR-100 和 ImageNet 数据集的实验结果分析发现,ViT 和 BiT-M 之间的对抗样本可迁移性极低。例如 ViT-L-16 和 BiT-M-50x1 之间,BiT-50x1 生成的对抗样本被 ViT-L-16 误分类的概率在各数据集上均小于 16%;ViT-L-16 生成的对抗样本使 BiT-M-50x1 误分类的概率在各数据集上也小于一半。总体而言,低可迁移性现象大多出现在不同模型类别之间,同一模型类别内的对抗样本可迁移性相对较高。虽然这不是绝对规则,但在多个数据集和多对模型中都存在这种现象,对模型安全性研究具有重要意义。
表2. CIFAR-10、CIFAR-100 和 ImageNet 的对抗样本迁移性结果。每张表的第一列代表用于生成对抗样本的模型 C i C_{i} Ci 。每张表的第一行代表用于评估对抗样本的模型 C j C_{j} Cj 。表中每个单元格的数值是使用公式 3,通过 FGSM、PGD 和 MIM 这三种不同攻击方法计算得到的 C i C_{i} Ci 和 C j C_{j} Cj 之间的最大迁移性。
图1. CIFAR-10 数据集上对表 2 的可视化展示。x 轴对应用于生成对抗样本的模型,y 轴对应用于评估对抗样本的模型。z 轴衡量两个模型之间的迁移率。条形图根据两个模型进行颜色编码。粉色、红色和橙色条形表示同一类属模型之间的迁移率,绿色、蓝色和浅蓝色条形表示不同类属模型之间的迁移率测量值。
白盒安全性与迁移性-White-Box Security and Transferability
该部分聚焦于如何利用对抗样本可迁移性提升安全性,围绕白盒攻击下集成防御的有效性展开研究,提出新型攻击方法并进行实验验证,具体内容如下:
- 集成模型防御策略:鉴于不同模型类别间对抗样本可迁移性较低,文章提出将不同模型进行集成作为一种防御手段。在基础案例中,选择最复杂的 BiT 模型和 ViT 模型构建集成模型,如在 CIFAR-10 和 CIFAR-100 数据集上使用 ViT-L-16 和 BiT-M-101x3,在 ImageNet 数据集上使用 ViT-L-16(图像大小512)和 BiT-M-152x4。同时,探讨了集成模型输出的组合方式,对比多数投票、绝对共识和随机选择三种方法后,最终采用随机选择作为集成防御的评估方式。
- 自注意力梯度攻击(SAGA)
- 攻击动机:若仅依据对抗样本低迁移率,可能会认为集成防御能抵御白盒攻击。但这种观点存在缺陷,为此提出 SAGA 攻击,旨在生成能同时使 ViT 和 CNN 误分类的对抗样本,以揭示该观点的问题。
- 数学描述:SAGA 假设攻击者了解集成防御中的模型和训练参数,通过迭代计算生成对抗样本 x a d v x_{adv} xadv 。核心公式为 x a d v ( i + 1 ) = x a d v ( i ) + ϵ s ∗ s i g n ( G b l e n d ( x a d v ( i ) ) ) x_{adv}^{(i + 1)} = x_{adv}^{(i)}+\epsilon_{s} * sign(G_{blend}(x_{adv}^{(i)})) xadv(i+1)=xadv(i)+ϵs∗sign(Gblend(xadv(i))) ,其中 G b l e n d ( x a d v ( i ) ) G_{blend}(x_{adv}^{(i)}) Gblend(xadv(i)) 综合了 CNN 和 ViT 的梯度信息以及 ViT 的自注意力图 ϕ v \phi_{v} ϕv 。
- 实验结果:使用 SAGA 攻击由 ViT 和 BiT-M 组成的集成模型,在 CIFAR-10、CIFAR-100 和 ImageNet 数据集上,攻击成功率分别达到 74.0%、84.4% 和 91.8%,表明这种集成在白盒攻击下并不安全,且 SAGA 攻击性能优于其他白盒多模型攻击。
图2. 自注意力梯度攻击(SAGA)、单步动量迭代法(MIM)攻击和基础攻击对包含一个 ViT-L-16 模型和一个 BiT-M-R101x3 模型(在 ImageNet 数据集上为 BiT-M-R152x4)的集成模型的攻击成功率。每种攻击的完整描述见 5.1 节。
黑盒安全性与迁移性-Black-Box Security and Transferability
这部分内容主要研究了在黑盒对抗模型下,基于模型集成的防御策略利用对抗样本迁移性提升安全性的效果。通过设定黑盒攻击参数和对抗模型,进行攻击实验并分析结果,发现集成模型在黑盒攻击下能显著提升鲁棒性且不牺牲干净准确率。
- 黑盒攻击参数和对抗模型
- 对抗模型:考虑两种主要的黑盒攻击者类型,即基于查询的攻击者和基于迁移的攻击者。对于基于查询的攻击者,采用 RayS 攻击,攻击者通过反复查询防御模型并相应调整噪声来生成对抗样本;对于基于迁移的攻击者,实施自适应黑盒攻击,这是一种比原始 Papernot 攻击更强的版本,攻击者可访问部分原始训练数据、查询防御模型并训练合成模型来生成对抗样本。
- 攻击参数:所有黑盒攻击都使用相同的基本约束集,噪声受 l ∞ l_{\infty} l∞ 范数约束,CIFAR-10/CIFAR-100 数据集上 ϵ = 0.031 \epsilon = 0.031 ϵ=0.031,ImageNet 数据集上 ϵ = 0.062 \epsilon = 0.062 ϵ=0.062 。在 RayS 攻击中,为攻击者设定每个样本 10000 次查询的预算;在自适应攻击中,给予攻击者 100% 的训练数据,并使用在 ImageNet-21K 上预训练的 ViT-B-32 作为合成模型(实验发现基于 CNN 的合成模型在集成防御上表现不佳)。由于 100% 强度的自适应攻击计算量巨大,仅展示 CIFAR-10 数据集的结果,而 RayS 攻击展示了所有三个数据集的结果。
- 黑盒攻击分析:通过实验测试了三种不同的模型配置,包括一个视觉 Transformer(ViT-L-16)和一个 Big Transfer Model(BiT-M-101x3 用于CIFAR-10/CIFAR-100,BiT-M-152x4 用于 ImageNet)的集成模型,以及单个 ViT-L 模型和单个 CNN(ResNet-56 用于 CIFAR-10/CIFAR-100,ResNet-50 用于 ImageNet)。实验结果(如下表)显示,包含 ViT 和 BiT-M 的简单集成模型在黑盒攻击下鲁棒性显著提升。在 RayS 攻击下,CIFAR-10、CIFAR-100 和 ImageNet 数据集上的鲁棒准确率分别提高了 66.5%、73% 和 32.1%;在 CIFAR-10 的自适应攻击下,即使攻击者拥有 100% 的训练数据、查询权限和在相同数据集上预训练的合成模型,集成模型仍能达到 57% 的鲁棒准确率,相比单个模型提升了 26.2%。此外,这种提升并未牺牲干净准确率,集成模型在 CIFAR-10、CIFAR-100 和 ImageNet 上的平均干净准确率分别为 98.2%、92.83% 和 85.37%。
图3. 不同模型配置在黑盒攻击下的鲁棒准确率(越高越好)。此处的 ViT/BiT 是一个集成模型,包含一个视觉 Transformer(ViT-L-16)和一个 Big Transfer Model(在 CIFAR-10/CIFAR-100 数据集上为 BiT-M-101x3,在 ImageNet 数据集上为 BiT-M-R152x4)。
结论-Conclusion
这部分内容对全文研究进行总结,阐述了视觉 Transformer(ViT)给对抗机器学习领域带来的新契机,概括了研究发现的特性及相应成果,强调了 ViT 在提升该领域安全性方面的作用,具体如下:
- 研究贡献:ViT 的出现为对抗机器学习领域带来新机遇,本文首次深入分析了这些新模型,揭示出一些有趣的特性。
- 主要发现:研究发现不同模型类别(如 ViT、BiT-M 和传统 CNNs)之间对抗样本的可迁移性通常很低。为验证这一特性对安全性的影响,开发了新的白盒攻击方法——自注意力梯度攻击(SAGA),结果表明该特性并不能为模型带来白盒安全性。不过在黑盒攻击场景下,利用这种低可迁移性现象,通过构建包含 ViT 和 BiT-M 的集成模型作为防御手段,可以在保持 CIFAR-10、CIFAR-100 和 ImageNet 数据集上接近最优干净准确率的同时,显著提升模型的鲁棒性。
- 研究意义:通过全面的实验和分析,展示了 ViT 在推进对抗机器学习领域安全性研究方面的重要作用,为后续研究提供了有价值的参考。