对抗性示例:从二维空间到黑盒攻击

新知榜官方账号

2023-10-20 09:24:19

引言

随着人工智能的炒作越来越多,对抗性示例的讨论也越来越多。对抗性示例是一种由机器学习模型错误分类的输入,通常是高维输入,例如照片、音频样本、文本串等。理解对抗性示例的关键之一是要了解机器学习模型如何做出决策和更高维空间对抗性噪音或扰动。

构建逻辑回归模型

为了演示对抗攻击中使用的一些核心技术,我们将构建一个逻辑回归分类器,它将作为我们打算攻击或欺骗的模型,或者我们的“受害者”模型。我们将调用两个输入变量X1和X2以及类0和类1来保持简单。逻辑回归将创建属于类1的数据点的概率分布,使用sigmoid函数和一些参数θ,然后将这个概率分布拟合到我们的数据中。我们将使用二元交叉熵损失作为损失函数来确定模型的预测与基础事实的接近程度。

基于梯度的攻击

基于雅可比或梯度的攻击的目的是在受害者模型的决策边界上移动一个点。在我们的例子中,我们将采用通常被归类为0类的点,并将其“推”到受害者模型的决策边界上,将其归类为1类。改变损失函数的偏导数w.r.t.X的值本质上就是在二维空间中移动X,方向只是一个对立的扰动的一个组成部分,我们还需要考虑到一个步骤,需要多大的步长才能在这个方向上跨越决策边界。对手必须考虑使用哪些数据点或输入,以及在决策边界上成功推送点所需的最小值。使用epsilon=0.5在受害者模型的决策边界上“推”几个数据点,我们已经成功创建了一些对抗性的例子!

黑盒攻击

黑盒攻击是指当我们对模型的工作方式一无所知时,我们仍然可以攻击模型。基于雅可比的数据集增强技术旨在训练另一个模型,称为替代模型,以与受害者模型共享非常相似的决策边界。一旦替代模型被训练为具有与受害者模型几乎相同的决策边界,则创建用于在替代模型的决策边界上移动点的对抗扰动也可能跨越受害者模型的决策边界。训练替代模型需要一组对黑盒模型可能可检测的ping信号。研究人员正在寻找越来越多的方法来保护他们的模型免受对抗性攻击。无论如何,我们必须积极了解模型的漏洞。

本页网址:https://www.xinzhibang.net/article_detail-17371.html

寻求报道,请 点击这里 微信扫码咨询

相关工具

相关文章