Press "Enter" to skip to content

法国学者:最优传输理论下对抗攻击可解释性探讨

本文分享论文 『When adversarial attacks become interpretable counterfactual explanations』 ,最优传输理论下对抗攻击可解释性。

 

详细信息如下:

 

 

作者来自法国图卢兹第三大学与IRT Saint-Exupéry 研究所。

 

论文链接:https://arxiv.org/pdf/2206.06854.pdf

 

      01        

 

引言

 

该论文是关于对抗攻击理论性的文章,作者为对抗攻击提供了非常可靠的解释性。当前最优传输理论是深度学习理论中非常热门一个的方向,作者从最优传输理论的角度去分析对抗攻击的现象。当学习具有最优传输问题对偶损失的神经网络时,模型的梯度既是最优传输方案的方向,也是最接近对抗样本的方向。

 

沿着梯度移动到决策边界不再是一种对抗攻击,而是一种反事实的解释,即可以看作明确地从一个类传输到另一个类。通过对可解释度量的大量实验可以发现,应用于最优传输网络的简单显着性映射方法是一种可靠的解释,并且在无约束模型上优于最新的解释方法。

 

      02        

 

最优传输,鲁棒性和可解释性

 

令是关于最小化损失函数的最优传输方案。给定,令是关于的图像。因为是不确定的,可以令作为关于的最大点,进而有如下命题:

 

(传输方案方向) 令是最小化损失函数的一个最优解。给定和,那幺当,则有几乎处处成立。

 

这个没有正则化的命题对于对偶问题为真。它证明了对于大多数,表示传输方案的方向。

 

(决策边界) 令和为两个有最小距离的可分离的分布,为最小化损失函数的一个最优解,其中。给定和,则有和,其中是决策边界。

 

令和为两个有最小距离的可分离的分布,为最小化损失函数的一个最优解,其中,给定,则有

 

几乎处处成立,其中。

 

推论1表明 ,基于损失函数的分类器精确地得到对抗样本。在这种情况下,最佳对抗攻击是在梯度方向上,应用于最优传输神经网络模型的所有攻击,如攻击或攻击,都等效于攻击。

 

为了说明这些命题,作者学习了一个损失函数为的密集二元分类器来分离两个复杂分布。下图(a)显示了两种分布(蓝色和橙色雪花),学习的边界(红色虚线)。下图(b)和(c)显示了两个分布中的随机样本,其中定义在命题2中的段。

 

正如命题2所所描述的那样,该点正好落在决策边界上。此外,如命题1所述,每个片段提供了图像相对于运输方案的方向。

 

 

作者证明了使用最优传输神经网络时,对抗攻击在形式上是被已知的,并且易于计算。此外,作者还证明了对抗攻击是沿着传输映射进行的,因此对抗攻击不再是一种不可察觉的修改,而是对样本的一种可以理解的转换。作者将利用这些属性来显示提供了一种自然的反事实解释,它具有可证明的解释性属性。

 

给定类中样本的反事实解释是最接近的样本。由于通常无法直接获得和的全局信息,所以作者仅针对分类器来获取其局部信息。在这种情况下,反事实对应于命题2中定义的对抗攻击。对于经典的神经网络,这只能通过添加对抗噪声来实现,这不是一个有价值的解释。由于它只依赖于和,这种反事实解释的定义是局部的。相反,作为的最小值的传输方案描述了从类到的最优方案,所以传输方案是一种全局的反事实解释,并且是对的局部解释。

 

需要注意的是,传输方案并没有在相反的类上提供最接近的样本,但在配对过程中提供了最接近的平均值。根据命题1,最优传输方案中的图像为。即使仅部分已知,当时,可知在决策边界上,并且可以进一步确定在最优传输方案的路径上。

 

以往显着图对分类器分类现象只提供了一个非常直观模糊的解释,在该论文中,作者在最优传输神经网络中提出了一个非常值得信赖的解释。表示的是最优传输方案的方向,因此显着图表示的是每个输入特征在该方向上的重要程度。

 

      03        

 

hKR损失函数

 

要知道函数的一个缺点是,它强烈依赖于损失函数的参数。在二分类情况下,有两个参数:分别间隙参数和权重参数,其中用于权衡分类模型的鲁棒性和准确性。当类是可分的且足够小时,损失函数中的部分会趋于。这会使得参数很难选择,在该论文中作者提出了一个新的损失公式如下所示:

 

其中是一个可学习的参数,是一个新的参数。在边界间隙是一个均匀分布,当的比率为时,使得,则最优间隙参数可以被获得,后者可以解释为损失的关键部分所涉及的目标数据比例。

 

选择,在优化过程中,的权重部分与部分大体一致。使用这种方法,可以选择的唯一参数是,它可以解释为学习过程中目标的近似错误率。给定一个有类的多分类问题,是一个一对多的二分类器,损失函数如下所示

 

其中

 

以上公式主要有三个缺点:其一是每个类的最佳边距可能不同,导致会有大量超参数需要被调参;其二是对于大量类中样本分布不平衡可能会导致模型收敛速度缓慢;其三是(真实类别的函数)相对于其他类别的权重随着类别数量的增加而降低。为了克服这些缺点,作者提出了一种基于的正则化损失函数:

 

其中,对于真实的类别,和其它函数总是有相同的权重。在学习的初期阶段,因为的取值是平均的;在训练的过程中,的值会逐渐不同,直至某个分量出现最大值并稳定。

 

      04        

 

实验结果

 

作者使用插入和删除指标评估最优传输神经网络的显着图解释的质量。在和数据集上针对两种类型的网络评估经典解释方法。

 

下表显示在显着图方法在最优传输神经网络上的指标上变得具有竞争力并且提供了更加可靠的解释性。

 

 

下表评估了不同数据集在最优传输网络上两个指标和等级相关系数。最优传输网络上解释距离远低于无约束的解释距离,并且非常接近于。

 

 

下图为定性可视化结果,可以直观的发现说明了在最优神经网络中提供了更好更清晰的解释性。

 

 

从下表定量结果可以直观的发现,通过所有这些实验得出结论,使用多种类型的解释指标,最优传输神经网络的可解释性优于无约束的神经网络。

 

 

下面两张图分别在和数据集上学习到的最优传输网络,下面两张图显示了原始图像,通道上的平均梯度,以及有传输方案方向的图像。可以直观的发现,大多数梯度在视觉上都是一致的。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注