2021李宏毅机器学习笔记--12 attack ML models

摘要

机器学习不仅要用在研究上,更多的肯定要在各种有意义的实际应用中。因此model仅仅是对杂讯(噪声)robust和大部分时间work是不够的,还要去对抗恶意攻击(注意,这里不是说仅仅是对抗杂讯,而是所谓的,不暴露出弱点)。因为在垃圾邮件识别,人脸识别这种最基础广泛的领域,也存在着大量的攻击对抗。因此,对这方面的研究是十分重要的。

一、图像模型的攻击

1.1原理

在一个训练好的模型上,对输入的图片加上特制的噪声,这个网络模型会得到一些不同的答案。
在这里插入图片描述训练的时候,我们的x是不变的,从而获得我们的θ;而在训练攻击图片的时候,我们是不改变模型本身的参数的,我们是固定住了θ ,而训练的是x。

攻击达到的效果根据我们应用的不同也分两种:

1、Non-targeted Attack:只要求最后的结果越不对越好,不要求结果最后错成什么样子
2、 Targeted Attack:在最后的结果越不对越好的基础上,还要求结果最后机器很确信的把某个我们希望的错的误认为对的

如下图所示,第一种就是最后认为不是猫即可,而第二种就是最后认为尽量是鱼。

![在这里插入图片描述](https://img-blog.csdnimg.cn/20210626101249677.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2d1b3hpbnhpbjA2MDU=,siz

1.2Constraint

但既然是恶意攻击,首先我们还是要保证,我们攻击所用的输入和原输入应该相对很接近,最起码人应该是不容易察觉的,因此我们要增加一个约束。
实际训练中我们首先要定义的就是“我们如何判断这是与原图片相似的图片”。我们设原输入是x,攻击用的图像是x^。
一般我们用的是 ∣∣x−x^∣∣∞​,也就是我们看各个像素的最大差值。
使用无穷范数的原因如下图所示,对于我们人眼而言,我们一眼就能看出左面的图片和右下角图片有很大不同(绿色部分明显不同),而很难辨识出与右上角图片的差距;虽然其实它们做差的2-范数相同。总的来说,当图片不是这么简单的时候,其实道理也还是类似的,如果有几个像素有明显的变化,我们人眼还是能轻易捕捉到的(尤其是专门去检查的话),而整张图片每个像素都有很细微的变化,我们肉眼几乎是完全检查不出来的。
在这里插入图片描述

1.3参数训练

需要找出损失参数最小并且距离x0尽可能小的x*,可以用梯度下降的方法进行学习,但是会出现一个问题,那就是我们会出现到达的点在范围外的情况,因此我们需要进行额外的操作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值