Goodfellow最新对抗样本连人类都分不清是狗是猫

浏览：297 时间：2023-03-08

机器学习模型容易受到对抗样本的影响，这已不是什么新鲜事。

　　机器学习模型容易受到对抗样本的影响，这已不是什么新鲜事。相信下面大家对下面这幅图(Goodfellow et al., 2014)都不陌生：Goodfellow凭借这张图让我们知道，即使对样本微小的改变也能“欺骗”上又更上一层楼，不光是欺骗机器，连人类也被欺骗了。

　　如上图所示，机器模型和人类都会判断左侧是猫，而右侧是狗，即使你仔细观察可能也会得出相同的结论。而事实上右侧图像只是左侧图像一个简单地对抗扰动。相关的工作发表在《Adversarial Examples that Fool both Human and Computer Vision》。

　　意义

　　这篇文章的重要意义不言而喻。如论文摘要中所说：“机器学习模型易受对抗样本的攻击这点大家已经非常清楚;人类是否也有相同的弱点还是一个开放性问题;而这篇文章提出了第一个能够欺骗人类的对抗样本。”

　　论文中还说到它对机器学习安全研究的影响。从机器学习安全的角度来考虑，如果我们知道人脑可以抵御某些类型的对抗样本，那么这就说明在机器学习安全中存在类似的机制，这为我们寻找它们提供了信心和线索 ;反过来，如果我们知道存在对抗样本能够欺骗我们的大脑，那么这就告诉我们，机器学习安全的重心不应该是研究如何设计鲁棒性极高的模型，而应是研究如何保证系统即使包含非鲁棒性的ML组件，仍然是安全的。

　　另一方面，如果针对计算机视觉开发的对抗样本对人脑也有影响，这将为我们了解人脑的工作机理提供某些线索。

　　思路

　　在Goodfellow et al.(2014) 的文章之后，计算机视觉领域相继出现很多构建对抗样本的流行算法，这些算法的一个共同点就是依赖模型的架构和参数来对输入进行梯度优化。但是，我们好像没办法获取大脑这个模型的“架构”及“参数”。那么如何才能构建针对人类的对抗样本呢？

　　这就需要考虑一个比较有意思的现象了——对抗样本通常可以在模型之间进行迁移;也即是说，我们可以通过迁移的方法来攻击哪些不知道其“架构”和“参数”的模型。这就使得构建针对人类的对抗样本成为可能。

　　当然事情并不是这么简单。作为人类，我们有很多认知偏差或者视觉错觉，但是这些偏差或错觉并不等同于之前研究中对图像的微小扰动。此外，我们可以通过学习损失函数来优化机器模型的对抗样本，但是对于人类，这种方法显然是无效的(或者需要花费极大的劳动)。所以到目前为止并没有看到有将迁移性对抗样本应用于人类视觉感知领域的研究。

　　借此三条，Goodfellow等人构建出了能够同时欺骗机器学习模型和人类的对抗样本。

　　模型

　　Inception V3, Inception V4, Inception ResNet V2

　　ResNet V2 50, ResNet V2 101, ResNet V2 152

　　结果

　　让我们回到开头的那张图片。不得不说，这是一张极具代表性的例子，即使我们再多看几遍也仍然会认为右侧的那张图片是狗。

下面这张是更多的结果：

　　上面一列从左到右，是攻击不同个数(1，5，10)的模型生成的对抗样本，随后用两个测试模型(其中一个是人类模型)进行分类。可以看出攻击的目标模型数量越多，生成的图像对人类来说越像狗。

　　下面一列则是针对10个模型的攻击生成的对抗样本，从左到右为不同的攻击程度。文中介绍说 eps=8 时，人类受试者已经认为这是狗了。

Goodfellow最新对抗样本 连人类都分不清是狗是猫

Goodfellow最新对抗样本连人类都分不清是狗是猫