大家读完觉得有帮助记得关注和点赞!!!
抽象
后门攻击包括毒害训练数据或直接修改模型以植入隐藏行为,这会导致模型在存在特定触发器时对输入进行错误分类。 在推理过程中,该模型对良性样本保持了高准确度,但将中毒样本错误分类为攻击者指定的目标类。 关于后门攻击的现有研究已经探索了在空间、频谱(频率)和语义(特征)领域开发触发器,旨在使它们具有隐蔽性。 虽然一些方法考虑了设计在空间域和频谱域中都难以察觉的触发器,但很少有方法结合了语义域。 在本文中,我们提出了一种新颖的后门攻击,称为 3S 攻击,它在空间、光谱和语义领域都是隐蔽的。 关键思想是使用梯度加权类激活映射 (Grad-CAM) 和初步提取模型,利用良性样本的语义特征作为触发器。 然后将触发器嵌入到光谱域中,然后在将样本转换回空间域后进行像素级限制。 此过程最大限度地减少了中毒样本和良性样本之间的距离,使现有防御和人工检查更难检测到攻击。 对各种数据集的广泛实验以及理论分析证明了 3S 攻击的隐蔽性,并突出了加强防御以确保 AI 安全的必要性。
关键字:人工智能安全、后门攻击、深度神经网络、DCT 转换
1介绍
随着人工智能 (AI) 迅速集成到金融、医疗保健和日常生活等不同领域,人们对 AI 系统的安全性和可信度的担忧日益加剧。 越来越多的研究揭示了 AI 模型的漏洞,引发了人们对它们在实际应用中的可靠性的担忧。 根据攻击者的目标,针对 AI 模型的攻击大致可分为模型纵攻击[1]和数据提取攻击[2]. 模型纵攻击旨在破坏 AI 模型的推理过程,迫使它们产生意外输出或攻击者指定的结果。 例如,对抗性攻击[3]和扩展攻击[4]以细微的方式修改良性样本,导致模型对它们进行错误分类。 后门攻击[5],另一方面,通过中毒的训练数据或对模型的直接修改在模型中植入隐藏的触发器,使攻击者能够在存在这些触发器时纵模型的输出。 同样,数据中毒攻击[6]通过更改某些训练样本的标签来破坏学习过程,从而降低模型准确泛化的能力。 相比之下,数据提取攻击[2]专注于窃取有关模型或其训练数据的信息。 通过分析模型的输入和输出或其内部参数,攻击者可以提取敏感信息。 这些攻击可以揭示特定样本是否是模型训练数据的一部分(成员推理)[7],重建每个类的代表性样本(模型反转)[8]或推断训练数据的详细属性(属性推理)[9]. 在某些情况下,攻击者甚至可以恢复特定的训练样本(数据重建)[10].
其中,后门攻击因其隐蔽性和最低的部署成本而引起了极大的关注[11]. 在典型的后门攻击中,攻击者通过注入包含特定触发器的输入并使用目标类标记它们来毒害训练数据的一小部分。训练后,该模型在良性输入上表现良好,但会将带有触发器的任何输入错误分类到攻击者指定的类中。值得注意的是,只需修改 1% 的训练数据就足以嵌入后门[11],而后门功能与正常神经元的纠缠进一步使检测和删除复杂化。因此,防御此类攻击仍然是一项紧迫的挑战。
多年来,针对不同领域的各种防御策略出现了:空间[12]光谱的[13]和 semantic[14]特性。 在神经网络中,空间域是指图像中像素的排列,谱域侧重于样本的频率分量(例如,通过傅里叶变换),语义域捕获由预定义指标或模型生成的样本的潜在特征。 作为回应,攻击者开发了更隐蔽的策略,试图通过优化触发器在特定域中的隐蔽性来规避这些防御[15,16].然而,语义(特征)领域的隐蔽性(密切反映模型的内部表示)受到的关注有限。现有的语义感知攻击要么需要访问训练过程[17],或者无法同时实现跨多个域的隐身。
为了解决这些限制,我们提出了 3S-Attack,这是一种新颖的后门攻击,可在空间、频谱和语义三个互补领域实现隐身性。我们的方法不需要访问训练管道。相反,它仅通过数据中毒来运行。利用 Grad-CAM[18],我们提取良性类样本的语义特征并将其嵌入到中毒图像中。然后,我们限制像素级扰动以保持视觉上的不可区分性。由此产生的中毒样本在外观、频率特性和高级特征上与干净的样本几乎相同,有效地逃避了人类感知和最先进的防御技术。
如图 1 所示,与广泛采用的后门方法相比,3S-Attack 对空间空间和频谱空间的扰动较小,同时实现了很高的攻击成功率。
图 1:提出的 3S 攻击与其他最先进的 (SOTA) 后门攻击在空间和频谱方面的比较。
这项工作的主要贡献如下:
- 我们系统地分析了不同域中现有后门攻击和防御的局限性。
- 我们提出了 3S-Attack,这是第一个同时在空间、光谱和语义领域实现隐身的后门攻击。
- S-Attack 也是第一个语义域隐蔽的后门攻击,它纯粹通过中毒样本运行,无需访问模型训练过程。
- 广泛的实验和理论分析表明,与之前最先进的攻击相比,我们提出的方法具有卓越的隐身和防御抵抗能力。
2背景和相关工作
对后门攻击的研究可以分为两大类:攻击方案和相应的防御方法。
2.1现有的后门攻击
2017 年,Gu 等人。[11]首次提出 BadNets,定义了针对 DNN 模型的后门攻击的概念并揭示了其潜在风险。 在 BadNets 中,攻击者首先确定触发器模式及其位置,以及相应的目标类。 然后,从训练数据集中的非目标类中随机选择一批样本,嵌入到触发器中,并将其标签修改为目标类。 这些生成的样本称为中毒样本,随后被注入回训练数据集中。 当用户使用此数据集训练模型时,将触发器链接到目标类的后门将植入到模型中。 从那时起,出现了大量关于后门攻击的研究论文。 目前,对后门攻击的研究可以分为两个阶段:可见的后门攻击和不可见的后门攻击。
可见攻击
在这个阶段,攻击者主要关注提高攻击的可靠性和攻击成功率 (ASR),较少关注触发器是否显眼,即是否可以被人工观察或防御方法检测到。 Chen 等人。[19]提出了两种类型的后门攻击:单实例密钥攻击,旨在误导模型将一个人的任何样本识别为另一个样本;以及模式键攻击,这会导致模型对包含特定模式的任何样本进行错误分类。 Barni 等人。[20]引入了一种干净标签的后门攻击,攻击者通过仅修改样本而不更改其标签来实现后门效果。 Lovisotto 等人。[21]将后门攻击扩展到生物识别系统,提供了实际的应用场景,并强调如果不设防,后门攻击几乎可以部署在所有深度学习环境中。 Liu 等人。[22]提出了一种旨在降低 DNN 模型可用性的黑盒后门攻击。
隐形攻击
在引入后门攻击的概念后,许多研究人员开始开发防御方法。 因此,随着对后门攻击的理解加深,由于人类可识别的触发因素容易被发现,因此逐渐被放弃。
在这个阶段,研究人员不仅确保了攻击的有效性,还强调了提高其隐身性。 这包括对防御方法的隐形,即绕过各种防御,以及对人类的不可见,确保中毒样本在人眼中看起来正常且连贯。 具体来说,Xue 等人。[23]提出了两种类型的后门攻击:一对一攻击,一种类型的触发器激活多个后门,以及 N-对一攻击,其中多个触发器激活一个后门,两者都绕过了各种防御方法。 Liao 等人。[24]引入首个全局触发后门攻击,通过叠加浅水印作为触发器,实现高攻击成功率,同时保持人类无感知。 Zou 等人。[25]建议在神经网络中插入一个或多个神经级木马,实现高稳定性,因为只有带有触发器的图像才能激活木马(或后门)。 Wang 等人。[26]基于对人类视觉系统的现有生物学研究和人眼对微小色差不敏感的假设,提出了一种不可见的触发器。 这种攻击通过重新编码和抖动样本来生成触发器,使人类和防御方法无法检测到它们。
随后,研究人员发现,在样本的频域特征中加入后门可以使中毒样本在空间域中本质上是隐蔽的。 因此,一些研究人员试图从频率角度实施后门攻击。 例如,Yu et al.[27]建议对样本进行快速傅里叶变换 (FFT),为目标样本添加触发样本的特征,然后进行逆变换以获得中毒样本。 Gao 等人。[28]提出了一种双重隐身后门攻击 (DUBA),它通过离散小波变换 (DWT) 嵌入触发器,然后通过应用快速傅里叶变换 (FFT) 和离散余弦变换 (DCT) 来平滑触发器,使触发器在空间域和频谱域中都隐身。 Zeng 等人。[13]提出了一种触发模式,可以平滑地改变空间域中的像素值,从而避免了频率图中的异常尖峰。
其他后门攻击
除了将中毒样本添加到训练数据集中外,研究人员还探索了通过直接修改模型来植入后门。 Tang 等人。[29]通过在经过训练的模型中添加从输入到输出的旁路,实现了触发器和目标类之间的关联,从而在不修改数据集的情况下实现后门植入。 Doan 等人。[30]提出在训练阶段,当模型参数信息存储在内存中时,通过程序访问和修改特定的神经元参数也可以在模型中植入后门。 如果攻击者是机器学习即服务 (MLaaS) 的提供商,他们就可以访问训练数据集和训练过程,从而实现更高效、更隐蔽的后门攻击。 Liu 等人。[31]建议先对模型进行逆向工程,获得初始触发器,然后再对模型进行微调,以提高触发器的攻击成功率。 Zhong 等人。[17]建议使用 U-net 编码器生成中毒样本。 攻击者修改模型的损失函数,并与模型同步训练 U-net 以生成最优触发器,显著提高攻击的隐身性。
除了图像分类任务之外,最近的工作还将后门攻击扩展到执行其他任务的模型,包括对迁移学习的后门攻击[32]、联邦学习[33]、自我监督[34]和半监督学习[35]以及用于语音识别的模型[36]和自然语言处理[37].
2.2现有的后门防御
现有的后门防御方法根据其重点可分为三种类型:基于空间域、基于谱域和基于语义域的后门防御。
空域
在图像分类任务中,空间域是指每个样本图像中像素的排列。 从空间角度进行分析的后门防御方法尝试直接检测后门,而不对样本或模型应用任何转换。
Wang 等人。[12]提出了神经清理 (NC) 防御措施,该防御措施假设攻击者会尝试将触发器设计得尽可能小,以减少人工检查的注意力。因此,它对每个类进行逆向工程以找到潜在的触发器,并将异常小的触发器视为实际的后门触发器。 Gao 等人。[38]假设触发特征通常是强的,而良性特征在其他方面是脆弱的。因此,他们提出了 STRIP,它重叠图像并检查模型的预测是否发生变化。如果没有,则样本可能中毒。 Selvaraju 等人。[18]提出了 Grad-CAM 作为一种方法,通过在预测过程中突出显示模型关注样本的哪个区域来提高模型的可解释性。 它还被认为是对后门攻击的防御措施,并激发了许多衍生产品。 例如,Doan 等人。[39]提出了 Februus,它使用模型可解释性来提取分类过程中最受关注的区域,通常是中毒样本中的触发区域。 然后,他们覆盖该区域并进行图像重建以恢复良性样本。 Chou 等人。[40]提出了 SentiNet,它还使用 Grad-CAM 来定位样本中最重要的区域并覆盖它以观察模型预测是否发生变化。
光谱域
基于频谱的后门防御方法涉及使用 FFT(快速傅里叶变换)或 DCT(离散余弦变换)等技术将图像样本从空间域转换为频域。 转换后,这些方法通过检测触发器插入引起的频率和振幅的异常变化来识别触发器和后门。
Hammoud 等人。[41]提出了一种防御措施,将不同样本的频域响应向量聚类(例如,使用 k-means),以自动区分中毒样本和良性样本,而无需事先了解触发形状或目标标签。 Zeng 等人。[13]使用触发器注入引起的光谱异常建立触发器数据集,然后使用该数据集训练分类器来检测中毒样本。 Fu 等人。[42]提出了一种检测恶意流量的方法。然而,所提出的频域分析也可以应用于检测深度学习模型中的异常模式,包括后门攻击。 它们利用频域功能来实现高效、稳健的实时检测。
语义域
语义域是指可以表示或最大化样本特征的任何空间。 此域不仅可以包括手动定义的空间,还可以包括模型在训练期间自动发现的空间。 例如,为了更有效地对样本进行分类,该模型通常会将一个或多个神经元分配给特定特征。 在这种情况下,样本激活的神经元集可以被视为它在模型的抽象语义域中的表示。 根据这些特征,可以识别中毒样本。
Liu 等人。[14]提出了 Fine-pruning,它假设网络中的一些神经元专门负责后门功能,并且在输入良性样本时保持非活动状态。 通过修剪这些神经元,可以消除后门。 Tran 等人。[43]提出了 Spectral Signatures,这表明如果一类同时包含良性样本和中毒样本,则中毒样本将在激活状态下表现出强信号,因此可以通过奇异值分解 (SVD) 检测到。 Chen 等人。[44]提出了 Activation Clustering,它遵循类似的假设。即使目标类别中的中毒样本和良性样本被归类相同,它们的内部机制也不同。对类中样本的神经元激活进行聚类,可以揭示具有更高 Silhouette Score 的目标类。 Liu 等人。[45]提出了 ABS,它分析不同刺激强度下的神经元激活,以定位中毒的神经元并根据这些神经元对触发器进行逆向工程。 Li 等人。[46]提出了 NAD,它使用教师模型对后门模型进行微调,迫使其与教师模型共享隐藏的注意力,从而缓解后门效应。
33S 攻击
本研究的目的是解决现有后门攻击的局限性。 现有的后门攻击方案在空间域(使中毒样本看起来与相应的良性样本相似)、光谱域(确保中毒样本的光谱图没有明显的异常)和语义域(确保中毒样本的模型激活类似于良性样本)中考虑了触发器和中毒样本的隐蔽性。 然而,它们都没有旨在同时在所有三个域中进行后门攻击。 因此,本文专注于设计一个在空间、频谱和语义领域隐蔽的后门触发器。 我们将我们的攻击命名为 3S-attack,因为它满足上述所有要求。 此外,在语义域中隐蔽的现有后门攻击总是涉及控制或纵模型训练过程[17],这在大多数情况下对攻击者来说是不现实的。 据我们所知,这也是第一个开发后门攻击方案的工作,该方案在语义域中是隐蔽的,无需访问模型参数或训练过程。 因此,这项工作扩展了高级后门攻击的适用性,对后门防御社区构成了重大威胁。
3.1威胁模型
攻击者的能力
攻击者可以在训练数据集中注入或更改一定数量的样本。 例如,攻击者可能会生成有毒样本并将其发布到网上,等待受害者将其收集作为其训练数据集的一部分;或者攻击者可能是第三方数据收集或标记服务提供商,他们对受害者的数据集拥有更多控制权。
但是,与之前的许多工作一样,我们并不假设攻击者可以访问模型本身,例如训练过程、模型参数或损失函数。 这是因为很少有个人或各方可以访问特定受害者的模型,例如 MLaaS 提供商。 此外,此类参与方进行的攻击具有高度可追溯性。 一旦在模型中发现后门,受害者就可以轻松识别行为不端的一方并追究他们的责任,这极大地限制了此类攻击的可行性。
因此,在本文中,我们假设攻击者可以访问训练数据集,但不能访问模型训练过程。
攻击者的目标
攻击者的目标是通过数据中毒成功地将后门植入目标模型。 具体来说,攻击者设计了一个触发器,使用它生成多个中毒样本,并依赖受害者使用这些样本训练模型。 后门攻击应满足以下特征:可行性(在良性样本上保持非活动状态,但在触发时会导致对目标类别的错误分类)、隐蔽性(无法通过各个领域的人工检查检测到)和防御抵抗性(对来自不同角度的防御有抵抗力)。
问题表述
我们的工作重点是深度神经网络 (DNN),用于使用监督式学习训练的图像分类,因为这是 DNN 在实际应用程序中使用和训练的最常用设置。
通常,DNN 模型是使用数据集训练的𝒟={(x我,y我)}我=1N等式如下:
哪里θ是模型参数;ℓ(⋅)是交叉熵损失;fθ(⋅)是模型的函数;x我是训练数据集中的样本;y我是相应的标签,而1N∑我=1N表示总体上的平均损失N训练示例。
现在,DNN 的功能可以描述如下:
哪里fθ(⋅)是模型的函数;x我是提交给模型的样本;t我是该样本的模型预测类;和y我是此样本的标签,可能是此样本的 Ground Truth。 这表明模型对良性样本应该具有较高的预测精度,这是功能模型的基本要求。
另一方面,后门模型是使用略微修改的数据集进行训练的𝒟=𝒟干净∪𝒟中毒,哪里𝒟中毒={(x我p,y我p)}我=1Np作为中毒样本的子集,遵循方程 1 中的相同过程。 在这种情况下,中毒的样本x我p通过数据中毒功能制作x我p=T(x我)哪里T(⋅)捐赠 injecting the trigger into samples 进程,并且 samples 的相应类与原始y我目标类y我p. 后门模型不仅具有方程 2 的特征,还具有另一个功能:
哪里x我p是中毒的样本;t我p是对中毒样本的模型预测;和y我p是目标类。 这表明后门模型可以准确地对良性样本进行分类,同时将每个中毒样本错误分类为目标类别。 由于我们假设无法访问任何与模型相关的信息,因此我们的攻击设计侧重于寻找满足这些目标的最佳触发器。
3.2攻击方法直觉
设计隐蔽后门攻击的主要挑战在于使触发器在语义域中不可见,语义域是一个由模型自主学习的抽象空间,并表现出很强的黑盒特征。 在训练开始之前,不可能预测这个空间的形状,更不用说准确描述它了。
为了应对这一挑战,提出的 3S 攻击采用了以魔法对抗魔法的策略。 从理论上讲,经过充分训练的模型应专注于输入图像中最能反映与其标签关联的特征的部分。 例如,如果图像被标记为猫,则模型应关注显示猫存在的部分(例如,猫的身体),而忽略不相关的部分(例如,背景)。 因此,在相似数据集上训练的模型在对同一样本进行分类时,预计会集中在大致相同的区域。
根据这一洞察,3S 攻击试图通过利用初步模型来预测目标模型的语义域,从而间接地描述语义域并绕过描述它的困难。 具体来说,攻击者首先训练一个干净的模型,并观察在处理良性样本时哪些神经元被激活。 只要它达到可接受的分类精度以允许 Grad-CAM 计算给定样本的显著性图,就对这个干净的模型没有具体要求。 通过分析显著性图,攻击者可以识别图像中对模型最重要的部分。 然后,利用此信息构建后门攻击的触发器。 下面介绍了 trigger 生成和注入的详细过程。
3.3触发器提取
攻击者首先使用干净的数据集训练初步模型。 此模型不需要达到最佳精度,只需达到可接受的性能水平即可。 然后,攻击者选择一个目标类,并从该类中选择一个或多个样本来生成触发器。
如图 2 所示,攻击者使用 Grad-CAM 提取模型在对触发样本进行分类时最依赖的区域(显著性图)。 将这些显著性图与相应的样本相乘,以生成定制的样本。 然后,原始触发器样本和定制样本都使用 Discrete Cosine Transform 进行转换。

哪里:
攻击者比较生成的频谱图中每个频率分量的幅度。 幅度差异低于特定阈值的频率被视为模型用于预测的关键特征。 这些频率及其相应的幅度将存储为触发器。
图 2:用于从 target 类中的良性样本中提取触发器的管道。
3.4中毒样品生成
获得触发器后,下一步是将其注入样本中以生成中毒的 inputs。 如图 3 所示,对于目标样本,攻击者首先应用 DCT 来获取其频谱图。 然后,根据名为 Poison Distance Ratio 的预定义参数,将目标样本中触发器识别的频率幅度调整为触发器中的相应值。 在此调整之后,应用反向 DCT 将样本转换回空间域。
图 3:将触发器嵌入到良性样本中以生成中毒样本的过程。
但是,初步实验表明,直接在频谱域中添加触发器可能会导致空间域中出现不自然的伪影(参见图 4 的上半部分)。 因此,有必要约束像素变化。 具体来说,在逆变换后,将修改后的样本与原始样本的像素值进行比较。 如果任何像素的变化超过特定阈值,则该更改将限制为该阈值。 当像素值超出数据边界时(例如,uint8 为 0–255,浮点型数据为 0–1),相同的规则也适用。请注意,像素值更改限制步骤并不总是有效,因为在大多数情况下,触发器注入引起的像素更改不会超过像素更改阈值。 换句话说,像素限制仅用作像素更改变得太大时的保护措施。
图 4:中毒样品的像素值更改限制。请注意,图中的红色圆圈仅用于突出显示样本中不自然的伪像;圆圈本身不是中毒样本的一部分。
3.53S攻击概述
总而言之,所提出的 3S 攻击遵循一个三阶段过程,通过利用语义特征引导的频域作来实现隐蔽和有效的后门注入。 这种设计确保了中毒样本在空间、光谱和语义域中保持隐蔽性,同时逃避多种防御机制。 算法 1 说明了整个过程,其中包括以下组件:
触发器提取:
训练初步模型以为目标类别中的样本生成 Grad-CAM 显著性图。 这些地图突出显示了与类相关的特征。 通过比较原始图像和定制图像的 DCT 表示,选择一组关键频率分量作为触发模式。
中毒样品生成:
随机选择干净数据的子集,并使用其原始值与提取的触发器中的值之间的线性插值,在触发频率上选择性地修改其 DCT 系数。 然后通过逆 DCT 将修改后的表示转换回空间域。
像素值限制:
为了保持视觉上的不可感知性,每个中毒样本与其原始样本之间的像素级差异被剪切到指定的阈值。
4实验
4.1实验装置
环境
所有实验均在配备 NVIDIA A100 Tensor Core GPU 和 Intel® Xeon® Platinum 8570 CPU 的服务器上进行,运行 Red Hat Enterprise Linux 8.10。 在运行 Experiment 之前,我们申请了 1 个 GPU、10 个节点和 40GB 内存。 所有实验均使用 Python 3.11.0 和 PyTorch 2.5.1+cu118 进行。 我们使用了学习率为 0.001、批量大小为 128 的 Adam 优化器,并训练了 50 个 epoch 的模型。
数据
针对 DNN 的后门攻击主要集中在图像分类任务的模型上。 因此,我们选择了在图像分类领域具有代表性的数据集,以证明 3S 攻击在各种场景中的普遍性。
表 1:每个数据集的详细信息。
数据 | 输入大小 | #Train | #Test | 类 |
---|---|---|---|---|
MNIST | 28×28×1 | 60000 | 10000 | 10 |
GTSRB | 32×32×3 | 39209 | 12630 | 43 |
CIFAR-10 | 32×32×3 | 50000 | 10000 | 10 |
CIFAR-100 系列 | 32×32×3 | 50000 | 10000 | 100 |
动物 10 | 128×128×3 | 23679 | 2500 | 10 |
我们战略性地选择了 MNIST、GTSRB、CIFAR-10、CIFAR-100 和 Animal-10,以全面评估我们攻击的可行性、隐身性和防御抵抗力。 MNIST[48]是一个简单的手写数字数据集,包含从 0 到 9 的数字的灰度图像。 GTSRB[49]代表德国交通标志识别基准,包含 43 种交通标志。 每个样本都是从真实世界照片中剪切的 RGB 图像。 CIFAR-10[50]包含分为 10 个类的图像,包括飞机等对象和猫等动物,每个样本都是一个 RGB 图像。 CIFAR-100 系列[50]包括 100 个图像类,涵盖各种对象、建筑物、生物和场景,模拟类间高度相似性。 动物 10[51]是一个用于在高分辨率图像上测试模型的数据集。它包含 10 个动物类,每个样本都是高分辨率 RGB 图像。 表 1 显示了每个数据集的详细统计数据。
选择这些数据集是基于关键考虑因素,以确保全面和平衡的评估。 它们代表了广泛的分类挑战,从简单的任务(如数字识别)到复杂的实际应用。 它们还涵盖一系列计算需求,使我们能够评估不同资源约束下的性能。 此外,这些数据集是该领域的历史基准,可以与最先进的模型和现有防御措施进行公平的比较。 它们的结构化多样性(包括手写数字、交通标志、物体、动物和高分辨率图像)确保了对不同条件下的 3S 攻击的稳健评估。
模型
我们采用不同的神经网络架构,根据每个数据集的复杂性和特征量身定制,以确保有意义和严格的评估。 选定的模型包括轻量级、标准和高容量架构,允许分析不同级别的模型复杂性和特征提取能力的攻击有效性。
对于 MNIST,我们同时使用自定义小模型和 LeNet-5,因为该数据集由数字的低分辨率灰度图像组成,需要相对简单的架构。 LeNet-5 是此类任务的经典 CNN 基准测试。 自定义模型提供了灵活性,可以评估攻击在不同架构下的可行性。
对于 GTSRB 和 CIFAR-10,我们使用 VGG-11 和 ResNet-18 来研究模型深度和特征提取策略的影响。 VGG-11 提供了简单的堆叠架构,而 ResNet-18 及其残余连接旨在解决梯度消失问题并增强特征重用。
对于 CIFAR-100,我们使用 WideResNet (WRN),这是一种具有更宽层的 ResNet 变体,提供了更大的特征表示能力,适用于这种细粒度的分类任务。
对于 Animal-10,我们采用 ResNet-18 是因为其容量和效率之间的平衡,并且因为它广泛用于高分辨率分类任务。
指标 1:ASR
攻击成功率 (ASR) 通过量化模型在触发因素存在时将中毒样本错误分类为目标类别的概率来衡量后门攻击的有效性。 它被定义为:
哪里:
较高的 ASR 表示更有效的后门攻击,因为它意味着触发器导致的一致错误分类。 反之亦然,低 ASR 表明攻击较弱或容易受到防御。
指标 2:PSNR
峰值信噪比 (PSNR) 通过测量原始样本和中毒样本之间的像素级相似性,评估后门触发器在像素级的隐蔽性。 它被定义为:
哪里:
较高的 PSNR 值表示中毒的图像与原始图像非常相似,这使得后门攻击更加隐蔽。相反,低 PSNR 表明可见失真,增加了检测到的可能性。
指标 3:SSIM
结构相似性指数测量 (SSIM) 评估原始图像和中毒图像在全局层面上的感知相似性,不仅考虑像素差异,还考虑结构信息。 它由下式给出:
哪里:
高 SSIM 值(接近 1)表示两张图像之间的结构相似性强,表明扰动(例如,触发器)在感知上是微妙的。与 PSNR 相比,SSIM 通过整合亮度、对比度和结构组件,更好地与人类视觉感知保持一致。
这三个指标一起从互补的角度评估后门攻击的有效性 (ASR) 和隐蔽性(PSNR 和 SSIM)。 ASR(攻击成功率)通过测量模型将中毒样本错误分类为攻击者指定的目标类别的有效性来评估攻击的可靠性。 PSNR(峰值信噪比)和 SSIM(结构相似性指数测量)都评估了触发器的不可感知性,但从不同的角度。 PSNR 通过测量原始图像和中毒图像之间的绝对强度差异来量化像素级失真,从而提供视觉变化的低级视图。 相比之下,SSIM 通过考虑亮度、对比度和结构信息来捕捉图像的感知质量,从而提供更全面和符合人类的视觉相似性评估。
4.2攻击性能评估
基线攻击
我们选择了几种采用不同触发和中毒样本生成算法的基线后门攻击方法与 3S 攻击进行比较。 具体来说,我们选择了 Wanet[15]、 bpp攻击[26]、 ISSBA[47]、国际篮联[16]和 BadNets[11]. 瓦内特[15]将 Warping Field 定义为触发器并将其应用于良性样本,它作用于空间域。 Bpp攻击[26]使用量化和抖动作为触发机制,它作用于空间域。 国际标准书ba[47]训练最初为隐写术设计的编码器-解码器对以嵌入隐藏的触发器,它作用于语义域。 国际篮联[16]选择良性样本的中心频率作为触发器,并替换其他样本的中心频率以生成中毒输入,它作用于频谱域。 坏网[11]作为标准基线,用于评估各种防御的有效性,它作用于空间域。
攻击性能
我们将提出的 3S 攻击与其他后门攻击进行了比较,表 2 展示了上述数据集中每种后门攻击的比较性能。 具体来说,3S 攻击在每个数据集中都获得了始终如一的高 ASR,这表明它正在实现可接受的攻击可行性。 更重要的是,它在所有数据集中都表现出非常高的 PSNR 和 SSIM 分数——例如,CIFAR-10 的 PSNR 为 35.65,SSIM 为 0.9690,超过了 Wanet Wanet 的分数[15](29.95 / 0.7735) 和 Bpp攻击[26](20.06 / 0.9233). 这些结果表明,3S攻击引入的扰动不仅有效,而且难以察觉。 因此,与牺牲触发器隐身性来换取 ASR 的基线攻击相比,3S 攻击在有效性和不可察觉性之间提供了更好的权衡。 此外,3S 攻击在不同的数据集上具有恒定的性能, 说明其较强的泛化能力。 请注意,在表 2 中,由于 BppAttack 与 MNIST 的数据特征不兼容,因此省略了 MNIST 上的 BppAttack 结果。 具体来说,MNIST 中的大多数像素值要么是 0(最小值),要么是 255(最大值),从而导致数据集高度饱和。 应用 BppAttack 时,它通常会生成超出这些限制的像素值。 由于值剪切,任何超出有效像素范围的修改都将被抑制,从而使插入的触发器无效。 因此,BppAttack 始终无法在 MNIST 上生成有效的中毒样本。
表 2:空间域内不同攻击的 ASR、PSNR 和 SSIM 值。请注意,ASR 采用百分比格式。
3S 攻击 | 国际标准书ba[47] | 瓦内特[15] | Bpp攻击[26] | 国际篮联[16] | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
数据 | ASR | PSNR | SSIM | ASR | PSNR | SSIM | ASR | PSNR | SSIM | ASR | PSNR | SSIM | ASR | PSNR | SSIM |
MNIST | 96.47 | 46.01 | 0.943 | 99.10 | 39.22 | 0.892 | 97.43 | 34.13 | 0.639 | - | - | - | 70.68 | 23.93 | 0.679 |
GTSRB | 94.12 | 32.78 | 0.979 | 93.71 | 19.03 | 0.653 | 98.31 | 31.22 | 0.759 | 95.29 | 24.61 | 0.943 | 79.05 | 14.62 | 0.559 |
CIFAR10 | 89.29 | 35.65 | 0.969 | 77.23 | 23.51 | 0.852 | 93.36 | 29.95 | 0.773 | 91.32 | 20.06 | 0.923 | 65.85 | 15.50 | 0.710 |
CIFAR100 | 92.38 | 31.68 | 0.946 | 86.42 | 22.79 | 0.851 | 93.06 | 30.69 | 0.858 | 85.94 | 20.12 | 0.927 | 75.48 | 15.87 | 0.770 |
动物10 | 97.42 | 30.83 | 0.962 | 99.87 | 26.6 | 0.840 | 93.88 | 29.59 | 0.452 | 92.44 | 23.28 | 0.966 | 58.72 | 15.69 | 0.754 |
4.3参数
在 3S 攻击中,有多个参数和阈值会影响攻击的性能。 其中,最重要的参数是:
- 1.
中毒率:中毒率是展示后门攻击性能的最直观方式,众所周知,成功嵌入后门所需的中毒样本越少,后门攻击就越有效。
- 2.
频率选择阈值:在转换目标图像并将图像定制为频域后,比较两个频率图中相同位置的每个频率。 如果其数值相似度百分比高于频率选择阈值,则会选择此频率和相应的值作为触发器的一部分。
- 3.
毒物距离比:当将触发器注入样本中时,良性样本中触发频率的振幅将向触发器中的值移动,毒物距离比是该振幅移动的程度。
- 4.
像素变化限制阈值:此参数控制中毒样品的像素值变化的容差程度。 阈值越高,在修改样本的频率图时,每个像素的变化就越大。 但是,阈值较低时,每个像素上允许的变化较少,这可能会导致样本发生更隐蔽的变化,但也可能导致触发器太弱而无法嵌入后门。
接下来,我们评估这些参数如何影响 3S 攻击性能。 图 5 分别说明了 CIFAR-10、CIFAR-100 和 Animal-10 对 ASR 的影响。 通常,ASR 随着数据集中触发成分比例的增加而增加,这是直观的——中毒强度越高,ASR 越高。 随着中毒样本数量(子图 a)、频率选择阈值(子图 b)、毒距离比(子图 c)和像素变化限制阈值(子图 d)的增加,触发分量在数据集中的比例增加。
图 5:(a) 毒率、 (b) 频率选择阈值、 (c) 毒迹距离比和 (d) 像素变化限制阈值对 ASR 的影响,在三个数据集上进行评估:CIFAR-10、CIFAR-100 和 Animal-10。 增加这些参数中的任何一个通常都会导致更高的 ASR,表明攻击效果更强。
对于 CIFAR-10,我们看到非常高的频率选择阈值可以降低 ASR。 一种可能的解释是,选择过多的频率作为触发器会导致触发器的附加对空间域中的样本产生过大的影响。 这会导致超过预设阈值的显著像素更改。 因此,当像素变化随后受到限制时,频谱图中许多频率的幅度会反向改变,从而使频域中的触发无效。
总体而言,如数据所示(图 5 和表 2),3S 攻击表现出很强的隐蔽性和稳健性。 即使数据集中触发器组件的比例较低(对应于保守的参数设置),它也始终能实现令人满意的 ASR。 此外,它在广泛的参数变化中保持相对较高的 ASR。 这些结果表明,即使缺乏有关目标模型或数据集的详细信息,也可以很有可能获得有效的攻击性能。 这突出了 3S 攻击的实用性,因为它的参数可以根据一般直觉或先前的经验进行配置,而不是根据特定的模型进行精确的调整。
4.4防御抗性
规避现有防御的能力是现代后门攻击的基本要求,因为任何缺乏这种能力的攻击都可能被检测和缓解。 3S 攻击经过专门设计,可在空间、频谱和语义域中保持不可察觉。 因此,我们选择了一套针对这三个领域的综合防御方法,以评估 3S 攻击的防御抵抗力。 特别是,我们考虑以下代表性抗辩:STRIP[38]、神经净化 (NC)[12]、激活群集 (AC)[44]、Grad-CAM[18]、精细修剪[14]和基于频率的触发检测 (FTD)[13]其中 STRIP、NC 和 Grad-CAM 基于空间域;FTD 基于频谱域;FP 和 AC 基于语义域。 本节的其余部分详细介绍了针对这些防御措施的 3S 攻击评估。
带
STRIP 背后的核心思想是,后门触发器通常被设计为高度稳健,以确保高攻击成功率,而输入样本中的良性特征往往更脆弱且容易受到干扰。 因此,当样本与其他输入混合而受到干扰时,良性特征更有可能受到影响,从而导致模型的预测发生变化。 相比之下,即使与其他输入混合,后门触发器仍然有效,通常仍会导致模型将样本错误分类为目标类别。 通过分析模型预测在这种扰动下的熵分布,STRIP 区分良性样本和中毒样本,从而建立阈值来检测和过滤掉潜在的后门。
图 6 显示了 STRIP 对 BadNet 的性能[11]以及对 GTSRB 和 Animal10 数据集的拟议 3S 攻击。 结果表明,STRIP 可以有效地识别 BadNet 中的中毒样本,因为它们的分布(橙色)与良性样本(蓝色)的分布明显不同。 然而,在 3S 攻击的情况下,中毒样本(绿色)的分布与良性样本的分布非常相似,因此无法区分。 因此,无法设置可靠的阈值来有效分离 3S 攻击引入的中毒样本,使其能够成功逃避 STRIP 的检测。
图 6:STRIP 针对 Badnets 和 3S 攻击对 GTSRB 和 Animal10 数据集的实验结果。
研究生CAM
Grad-CAM 不仅用作生成 3S 触发器的组件,还用作后门防御的既定方法。 当防御性使用时,Grad-CAM 会生成一个热图(显著性图),突出显示模型在分类过程中最关注的输入样本区域。 在良性样本中,突出显示的区域通常对应于主要对象或关键判别特征。 相反,对于中毒样品,突出显示的区域通常对应于触发器的位置。
图 7 显示了良性样本(上)、来自 BadNets 的中毒样本(中)和 3S 攻击中的中毒样本(下)的显著性图。 对于良性样本,模型的注意力正确地集中在图像中的主要特征或对象上。 然而,在 BadNets 生成的中毒样本中,模型的重点主要集中在触发区域,而不管图像的真实标签或语义内容如何。 相比之下,该模型对 3S 攻击中毒样本的行为与它在良性样本上的行为非常相似,注意力集中在主要语义区域。 这是因为 3S 攻击触发器是使用已经与 benign 类关联的特征嵌入的,因此没有特定的空间区域被一致地突出显示为触发区域。
图 7:Grad-CAM 对 Badnets 和 3S 攻击对 GTSRB 和 Animal10 数据集的实验结果。
精细修剪
精细修剪 (FP) 基于这样一个假设,即后门模型中的某些神经元专门负责识别触发器的存在。 这些与后门相关的神经元在处理良性样本时通常处于非活性状态,并且仅被中毒的输入激活。 因此,如果有与训练数据共享相同分布的干净数据集可用,则可以将其馈送到模型中以监控神经元激活状态。 在良性数据集中始终保持不活跃的神经元被认为可能与后门相关,随后被修剪或去加权。
图 8 显示了将 FP 防御应用于 GTSRB 和 Animal10 数据集上的 3S 攻击的结果。 很明显,随着修剪率的增加,良性准确率 (BA) 的下降速度比攻击成功率 (ASR) 更快、更早。 这表明没有有效的修剪阈值,在该阈值下,ASR 会显著降低,而不会显著降低模型在良性样本上的性能。 一个可能的解释是,3S 攻击使用复杂的分布式特征嵌入触发器,这些特征涉及广泛的神经元。 因此,负责识别良性特征的神经元和参与识别触发因素的神经元可能会重叠。 这使得在不损害模型正常功能的情况下分离和删除后门特异性神经元变得困难。
图 8:FP 防御 3S 攻击在 GTSRB 和 Animal10 数据集上的实验结果。
基于频率的防御
基于频率的防御 (FTD) 背后的核心思想是,大多数后门触发器都是在空间域中设计的,通常没有仔细考虑它们在频谱域中的隐蔽性。 因此,当在频域中分析此类触发因素时,它们通常会在频谱中留下独特且可检测的模式。 然而,尽管这些模式可能在视觉上看起来很明显,但设计一种基于规则的算法来可靠地区分良性和中毒的频谱特征是具有挑战性的。 为了解决这个问题,FTD 采用了基于神经网络的方法。 具体来说,防御者收集了一组不同的已知触发模式,并使用它们来生成中毒样本。 然后训练二元分类器,以根据其光谱特征区分良性样本和中毒样本。
表 3 显示,FTD 在检测某些类型的后门攻击及其相应的触发器方面表现良好。 值得注意的是,即使在有限种类的触发模式上进行训练时,FTD 检测器也表现出一定的泛化能力,并且可以成功检测以前未见过的触发类型。 但是,当面对 Wanet 等攻击时,它的有效性会降低[15]以及拟议的 3S 攻击。 这是因为与训练集中使用的触发器相比,这些攻击中的触发器表现出明显不同的频域特征。 特别是,3S 攻击仅修改了非常小的频率分量子集,使产生的频谱变化过于微妙,以至于检测器无法可靠地区分良性样本。 因此,FTD 分类器无法将 3S 攻击生成的中毒样本识别为异常。
检出率 (%) | ||
攻击手法 | GTSRB | 动物10 |
良性样本 | 98.54 | 100 |
3S 攻击 | 1.46 | 0.98 |
国际标准书ba | 100 | 99.16 |
瓦内特 | 6.11 | 4.36 |
Bpp攻击 | 98.87 | 99.44 |
国际篮联 | 99.98 | 98.76 |
坏网络 | 100 | 99.08 |
表 3:FTD 防御方法在 GTSRB 和 Animal10 数据集上针对多种后门攻击方案的实验结果。
然而,3S 攻击也有其漏洞,可以通过某些类型的后门防御(如 Neural Cleanse 和 Activation Clustering)来检测。
神经净化
神经清理 (NC) 背后的核心思想基于以下观察:攻击者通常旨在设计尽可能小且不显眼的触发器。 此外,后门模型通常依赖于触发模式中的几个关键像素来导致错误分类。 因此,对于 target 类,通常可以识别出一个小的 trigger pattern,当它连接到广泛的良性 inputs 时,它始终会导致误分类到该类。 相比之下,对于干净(非目标)类,任何导致良性样本被错误分类到这些类的合成触发器往往要大得多,因为没有与之关联的实际后门。 通过对所有类的潜在触发器进行逆向工程并比较它们的大小,NC 将触发器异常小的类确定为可能的后门目标。
图 9 显示了应用于目标类别为 7 的 3S 攻击的 NC 防御中每个类别的异常指数。 子图 (a) 显示了 GTSRB 数据集上的结果,其中 7 类表现出明显更高的异常指数,远高于检测阈值,表明 3S 攻击被有效检测到。 然而,在子图 (b) 中,基于 Animal10 数据集,类 7 的异常指数为 1.73,仍然相对较高,但低于阈值。 此外,另一个干净类也具有 1.65 的可比异常指数。 这些结果表明,虽然 NC 在某些条件下可以有效地检测 3S 攻击,但不能保证其在所有设置中的可靠性。 由于 DNN 的黑盒性质,这种不一致的根本原因很难确定。 一种可能的解释是,在某些情况下,该模型学会将某些微妙的、重复出现的像素模式(在所有中毒样本中共享)关联为有效触发器,从而通过 NC 成功进行逆向工程。
图 9:Neural Cleanse 在 GTSRB 和 Animal10 数据集上针对 3S 攻击的实验结果。
激活集群
激活聚类 (AC) 背后的想法类似于精细修剪,因为后门模型中的某些神经元(尤其是全连接层中的神经元)专门负责识别触发器的存在。 因此,尽管来自目标类别的中毒和良性样本可能产生相同的预测,但内部机制不同,因为它们激活了不同的神经元子集。 基于这一观察,对于模型中的每个类,可以收集神经元激活模式并应用聚类分析。 如果激活自然地分为两个不同的集群,则该类很可能是后门目标;否则,该类被视为良性。
图 10 表明 AC 对不同数据集的 3S 攻击是有效的,因为目标类别的 Silhouette 分数始终高于良性类别的 Silhouette 分数。 这可能是由于这样一个事实,即尽管 3S 攻击旨在使中毒样本激活与良性样本相似的神经元,但目标模型的内部优化过程仍然是一个黑匣子,超出了攻击者的控制范围。 因此,一些神经元可能仍被隐式分配了识别触发特定模式的任务。 这会导致目标类内出现明显的激活差异,使其更容易出现聚类。 这些发现表明,AC 是一种特别强大的防御措施,设计能够在无法访问模型训练过程的情况下逃避 AC 的后门攻击仍然是一项极具挑战性的任务。
图 10:在 GTSRB 和 Animal10 数据集上针对 3S 攻击的激活聚类实验结果。
5讨论
在本节中,我们分析了实验的主要发现,将 3S 攻击与现有工作进行比较,确定局限性,并讨论潜在的未来方向。
核心属性
实验结果表明,3S 攻击是一种可行的、隐蔽的、稳健的、防御性的后门攻击。 它在不同复杂度和分辨率的数据集(包括 MNIST、GTSRB、CIFAR-10/100 和 Animal-10)中实现了始终如一的高 ASR,证实了其总体可行性。 同时,该攻击仅引起极小的感知失真,PSNR 和 SSIM 的高分证明了这一点,通常超过所有基线方法。 这验证了它的空间和感知隐身性。
超参数和模型鲁棒性
3S 攻击在多种参数范围内保持稳定,包括中毒率、频率阈值、中毒距离比和像素级限制。 即使在保守配置下,3S 攻击也保持了高有效性,显示出对超参数变化的鲁棒性。 此外,它在不同的模型架构中具有良好的泛化性,从简单的 CNN 到深度残差网络,进一步增强了其适用性。
防御抗性
几种防御机制对 3S 攻击无效。 STRIP 无法检测到中毒样品,因为良性样品和中毒样品之间的重叠熵分布很接近。 基于 Grad-CAM 的检测也被规避了,因为 Grad-CAM 始终能突出自然区域,即使在中毒样品中也是如此。 因此,不仅 Grad-CAM 及其衍生防御(例如基于显著性的触发器定位)也被有效绕过。
FTD 失败
FTD 旨在检测频谱异常,但无法抵御 3S 攻击。 如图 2 所示,触发器通常只占据频率图的 1%–5%,并且没有任何结构化或局部模式。 这种看似随机性阻止了在具有规则频率特征的已知触发器上训练的 FTD 分类器泛化为 3S 攻击。 因此,FTD 始终将 3S 中毒样本错误分类为良性。
通过 NC 和 AC 进行部分检测
尽管 3S 攻击很隐蔽,但它仍然可以被神经清理 (NC) 和激活集群 (AC) 部分检测到。 NC 在类模式受到限制的 GTSRB 等数据集中成功,但由于语义复杂性,在 Animal-10 上失败。 AC 更稳健:尽管 3S 攻击将中毒输入与良性注意力图对齐,但它无法完全消除深层激活的差异。 这些潜在的差异仍然是可集群的,这表明 3S 攻击尚未实现完全的语义隐身。
贡献和影响
这项工作首次提出了一种在空间、光谱和语义领域同时隐蔽的后门攻击。 此外,它无需访问模型训练过程即可实现语义隐蔽性,这是实际黑盒攻击的重要进步。 这些发现意味着,即使在强大的隐身约束下,后门攻击也可以保持有效,这凸显了后门攻击和相应防御设计的巨大进步潜力。
限制和未来工作
3S 攻击的关键局限性在于它在特征(语义)层面的不完全隐身。 具体来说,激活聚类仍然可以检测良性样本和中毒样本之间的细微激活差异。 在无法访问模型内部的情况下增强语义的不可见性仍然是一个困难但必不可少的方向。 未来的工作可能会探索:(1) 自适应频率选择策略,(2) 激活对齐中毒以逃避 AC,以及 (3) 将攻击扩展到更复杂的模式,例如视频、文本和多模态学习。
总结
3S 攻击表明,多域隐身既可以实现又有效。 它揭示了当前 AI 系统中的关键漏洞,并激励设计更先进的防御策略。
6结论
在本文中,我们提出了 3S-Attack,这是一种新型的后门攻击,可在空间、光谱和语义域实现隐身。 该攻击通过使用初步模型和 Grad-CAM 提取与类相关的特征,然后是频域嵌入和像素级约束,从而构建一个三重隐身触发器。 与之前的工作不同,3S-Attack 不需要访问受害者模型或其训练过程,使其适用于真实的威胁场景。 大量实验表明,我们的方法不仅保持了较高的攻击成功率,而且实现了卓越的无感知性,有效地规避了多个现有的防御。
然而,我们目前的方法虽然不依赖于训练时访问,但并不能完全保证在模型的内部特征空间(语义域)中的不可见性。 这凸显了黑盒后门攻击的一个基本挑战:在不参与训练过程的情况下实现语义级隐身。 解决这一局限性代表了未来研究的一个重要方向。