Press "Enter" to skip to content

ICLR 2022 Spotlight | 隐私和准确率可以兼得幺:放松训练目标即可无伤抵御成员推理攻击

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

近年来,层出不穷的针对深度神经网络的隐私攻击不断地对用户的数据安全造成威胁。其中,成员推理攻击(membership inference attack)以判断模型的训练数据为目标,已被证实可以有效推断出不同类型的敏感数据,如医疗信息和购买记录。同时,大量研究表明,成员推理攻击难以被有效防御。为此, 德国亥姆霍兹信息安全中心博士生陈丁凡 提出一种模型训练的新方法,通过 放松优化目标(RelaxLoss) ,首次在不损害模型准确率、不增加运算复杂度的情况下,有效地防御成员推理攻击。

 

论文链接:

 

https://openreview.net/pdf?id=FEDfGWVZYIn

 

代码链接:

 

https://github.com/DingfanChen/RelaxLoss

 

Poster代码:

 

https://dingfanchen.github.io/homepage/documents/poster_RelaxLoss.pdf

 

 

一、背景简介

 

本文以 成员推理攻击 为主要研究对象。在成员推理攻击中(图1),给定攻击者一个已训练好的目标模型(target model)和待检测的样本(query sample),攻击者需推断待测样本是否属于目标模型的训练数据集,即解决一个二分类问题。一般情况下,攻击者无需访问目标模型的参数,只需观察模型输出的概率向量,甚或是不完整的输出(例如top-k预测类别),即可进行成员推理。

 

 

图1-成员推理攻击示意图

 

已有的防御方法可以划分为以下几类: 正则化方法(regularization),基于对抗训练(adversarial training)的方法,以及差分隐私(differential private)训练方法 。早期研究将正则化方法例如dropout和weight-decay作为防御机制,但传统正则化方法对于抵抗成员推理攻击效果不显着。后续研究针对成员推理攻击,提出了基于对抗训练的方法。即防御者用外源数据预先训练一个神经网络作为近似的攻击模型(pseudo attack),再以最大化此攻击模型的预测误差为目标训练目标模型。但由于基于对抗训练的方法对攻击模型做出了较强的假设,其防御效果往往局限于特定攻击。现也有研究考虑将能提供严格隐私保障的差分隐私方法作为防御,并取得了最优异的防御效果。但差分隐私训练会严重影响目标模型的准确性且会显着提高训练复杂度,难以在实际中投以使用。

 

二、贡献

 

针对现有方法的弊端,本文做出了三个主要贡献。

 

1. 我们提出了一种简单而有效的防御机制, 首次在不损害(甚至能够改进)模型准确率、不增加运算复杂度的情况下 ,有效地防御了目前存在的各种成员推理攻击。

 

2.我们从贝叶斯最优攻击出发,对我们的方法性质进行了理论上的推导并给出了实验上的支撑。

 

3. 我们给出了针对成员推理目前最完善的实验探究,并提供了包括多种数据集类型、各种攻击模型、所有现存防御的程序实现,希望能为后续相关研究设立基准。

 

三、方法

 

模型过拟合是目前认为导致模型易受成员推理攻击的主要原因,即训练样本(member sample)往往在目标模型上表现出极小的 损失函数误差值 ,而非训练样本(non-member sample)会表现出大的误差值,这种差距使得攻击者能轻易区分出训练样本以及非训练样本。同时,在一定的后验概率假设下, 理论结果证明最优的攻击策略仅依赖于样本损失函数误差值的分布。

 

基于以上观察,我们提出适当放松优化目标(relax loss),即在训练过程中,适当地提升训练样本的损失函数值,以使得训练样本和非训练样本的误差值的分布相近,来达成混淆攻击者的效果。 算法上,我们采用梯度上升来达成控制训练样本损失函数误差值的效果。

 

同时,为减小梯度上升可能带来的不良影响,我们提出将样本 当前输出概率向量进行拉平操作(posterior flattening)  后作为 软标签 进行训练。即保持模型对于正确类的概率预测值并将剩余概率均摊给所有非正确类(见图2),以此使得在训练样本损失函数值维持在较高水平的情况下,模型仍然能进行正确预测。实现上,我们采用梯度下降,梯度上升,以及 概率拉平交替 进行的训练方法,其实现简单,且不增加运算复杂度。

 

 

图2-左:拉平操作前可能的预测概率值。右:拉平操作后软标签对应的概率值。横坐标:标签类别,纵坐标:概率预测值(gt class:正确类,,non-gt:非正确类)。

 

四、分析

 

我们对方法的主要性质进行了理论和实验探究,发现RelaxLoss方法有以下两个主要性质能解释其对于防御成员推理攻击的有效性(图3):(1)RelaxLoss能 缩小 训练和非训练样本误差值的差距; (2)RelaxLoss会 增加 训练样本误差值分布的方差,即使得训练样本间的一致性减小,难以被攻击者发现其共同特征。

 

 

图3-训练和非训练样本误差值分布(non-member:非训练样本,member:训练样本)。(a):正常训练,(b-c):RelaxLoss采用不同的优化目标值 \alpha α

 

五、效果评估

 

我们在自然图像(CIFAR-10,CIFAR-100),医学图像(CH-MNIST),和非图像数据(医疗记录Texas100,购买历史Purchase100)上进行了系统的实验验证。我们考虑了6种攻击模型(包括白盒和黑盒),对比了8种现有的防御措施,并衡量了在不同防御措施下 目标模型的准确率(越高越好) 和攻击者预测准确率以及AUC(越低越好) 。实验结果表明,我们提出的RelaxLoss方法是目前唯一能在不损害目标模型准确率的前提下,有效抵御攻击的防御方法(图4),且RelaxLoss在不同的数据集,不同的攻击模型(图5),甚或是自适应攻击(表1)下均能保持其有效性。

 

 

图4. 横坐标:攻击者AUC,纵坐标:目标模型测试准确率。左:RelaxLoss可以在保证(甚至提高)目标模型准确率的前提下,有效抵抗攻击。右:和其他防御方法相比,RelaxLoss防御效果最为显着。

 

 

图5. 每个小图代表一个不同的攻击模型。RelaxLoss对于不同的数据集,不同的攻击模型均有效。

 

 

表1. 对比采用RelaxLoss前后的自适应(adaptive)攻击和非自适应(non-adaptive)攻击准确率以及相对差异(单位:%)。

 

//

 

作者介绍

 

 

陈丁凡,本科毕业于德国图宾根大学计算机系,硕士毕业于德国萨尔大学计算机系,现为德国CISPA亥姆霍兹信息安全中心的博士生,导师为Mario Fritz。主要研究方向为机器学习模型隐私与安全,在机器学习以及计算机安全顶会发表论文多篇。

 

详见其个人主页:

 

https://dingfanchen.github.io/homepage

 

Illustration  b y Semenin Egor f rom i cons8

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。