Press "Enter" to skip to content

ML-DOCTOR:对机器学习模型推理攻击的全局性研究

 

原文标题:ML-DOCTOR: Holistic Risk Assessment of Inference Attacks Against Machine Learning Models

 

原文作者:Yugeng Liu, Rui Wen, Xinlei He, Ahmed Salem, Zhikun Zhang, and Michael Backes, CISPA Helmholtz Center for Information Security; Emiliano De Cristofaro, UCL; Mario Fritz and Yang Zhang, CISPA Helmholtz Center for Information Security

 

发表会议:USENIX SECURITY ’22

 

原文链接:https://arxiv.org/pdf/2102.02551.pdf

 

笔记作者:Norns@SecQuan

 

文章小编:cherry@SecQuan

 

0x01 INTRODUCTION

 

针对机器学习模型的推理攻击指的从机器学习模型的非敏感数据推断敏感信息的一类攻击手法,这类攻击方法根据攻击目标不同,可以分为不同的种类。目前,针对各种具体攻击的研究已经取得了一定的成效。可是,研究者们对于这一类的攻击没有一个全局的认识。在这篇论文中,作者的目的是消除这一研究上的缺失,首先对推理攻击作出全局性的研究,这篇论文的主要贡献在于:

 

提出了一种推理攻击的分类方法

 

提出了ML-DOCTOR,这是一个用于评估机器学习模型受攻击脆弱性的评估框架

 

通过实验,探究了影响推理攻击成功率的因素

 

0x02 THREAT MODELING

 

作者从两个维度对推理攻击的应用场景进行了划分:

 

 

攻击者对目标模型的访问方式:根据攻击者接入模型方式的不同,可以将攻击方式分为白盒攻击和黑盒攻击。在白盒攻击中,攻击者知道模型的细节,包括模型的参数以及架构。在黑盒攻击中,模型的细节对攻击者是隐藏的,攻击者所知道的信息只有模型对于一个给定输入所对应的输出。

 

辅助数据集:在推理攻击中,攻击者需要使用辅助数据集来对攻击模型进行训练,根据攻击者所掌握数据集的情况,可以划分为三种:拥有部分训练数据,拥有阴影数据以及不拥有数据。

 

 

在实际的应用场景中,不具有数据的黑盒攻击是难以实现的,因此作者将攻击场景主要划分为5类:具有阴影数据的黑盒攻击,具有部分训练数据的黑盒攻击,不具有数据的白盒攻击,具有阴影数据的白盒攻击以及具有部分训练数据的白盒攻击。

 

0x03 INFERENCE ATTACKS

 

在这篇文章中主要讨论4种推理攻击方式:成员推理攻击、模型逆向攻击、属性推理攻击以及模型窃取攻击。

 

A. Membership Inference

 

成员推理攻击指的是攻击者利用目标模型以及辅助数据,判断一个目标样本是否参与了模型的训练。这种攻击的攻击方式包括:具有阴影数据的黑盒攻击以及具有部分训练数据的黑盒攻击。

 

B. Model Inversion

 

模型逆向攻击指的是攻击者利用目标模型和辅助数据,推断出训练模型所使用的样本。这种攻击的攻击方式主要包括:不具有数据的白盒攻击以及具有阴影数据的白盒攻击。

 

C. Attribute Inference

 

属性推理攻击指的是攻击者通过机器学习模型,推断目标样本的隐藏信息。这种攻击的攻击方式主要包括具有阴影数据的白盒攻击以及具有部分训练数据的白盒攻击。

 

D. Model Stealing

 

模型窃取攻击指的是攻击者通过目标模型以及辅助数据,推断出模型的参数的攻击手段。这种攻击的攻击方式主要包括具有阴影数据的黑盒攻击以及具有部分训练数据的黑盒攻击。

 

0x04 ML-DOCTOR

 

ML-DOCTOR的示意图如下图所示:

 

使用者将数据和目标模型作为输入,通过不同的攻击模块和防御模块,判断该模型受攻击的脆弱性以及防御策略的有效性。值得一提的是,该工具基于模块化的设计,所应用的攻击模块和防御模块都可以进行自定义,该工具已经开源。

 

0x05 EVALUATION

 

在本文的实验中,作者关注以下三个问题:

 

 

数据集复杂度对推理攻击的影响

 

模型过拟合程度对推理攻击的影响

 

不同的攻击手段之间的联系是怎幺样的

 

 

实验结果如图:

 

A. The Role of the Dataset

 

实验的结果表明,数据集复杂度对攻击的成功率有着深刻的影响,在成员推理攻击和模型窃取攻击中,训练模型的数据集越复杂,攻击的成功率越低。

 

B. The Effect of Overfitting

 

实验结果表明模型的过拟合程度对推理攻击的成功率有着影响。但是,根据攻击方式的不同,所产生的影响也不同。比如说,对于一个高度过拟合的模型来说,攻击者进行成员推理攻击的成功率较高,而模型窃取攻击的成功率则较低。

 

C. Relation Among Different Attacks

 

通过实验,作者发现成员推理攻击与模型窃取攻击之间存在较强的负相关关系,一个模型若较容易遭受成员推理攻击,则在其上模型窃取攻击的成功率则较低。同样的关系发生在成员推理攻击和模型逆向攻击中。

 

0x06 Conclusion

 

在这篇论文中,作者对推理攻击进行了全局性的研究,提出了一种推理攻击攻击手段的分类方法,以及一个判断机器学习模型遭受推理攻击成功率的评估工具。通过实验,作者发现训练数据集的复杂度及模型的过拟合程度对推理攻击的成功率也有不同程度的影响,以及不同攻击方式之间的关联性。除了上文所介绍的内容,作者还探究了现有流行的防御框架对推理攻击的防御效果。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注