Press "Enter" to skip to content

深度学习数据窃取攻击在数据沙箱模式下的威胁分析与防御方法研究阅读心得

目录

 

(6)模型训练阶段的攻击:

 

(7)数据处理阶段的攻击:

 

(8)深度学习数据窃取攻击特征分析(检测方法)

 

(9)模型训练阶段攻击的参数分析检测

 

(10)数据处理阶段攻击的模型剪枝防御

 

一、 研究背景

 

人工智能时代,数据开放共享已然成为趋势,但是数据安全问题严重制约了大数据价值的发挥。数据沙箱模式,或称数据信托,是解决隐私保护和数据挖掘之间矛盾的有效方案。数据沙箱分为调试环境和运行环境,数据拥有者将原始数据托管到运行环境中,并自动生成不包含隐私信息的样例数据。

 

二、 论文研究的问题

 

详细分析了数据沙箱模式下,深度学习数据窃取攻击的威胁模型,量化评估了数据处理阶段和模型训练阶段攻击的危害程度和鉴别特征。针对数据处理阶段的攻击,提出基于模型剪枝的数据泄露防御方法,在保证原模型可用性的前提下减少数据泄露量;针对模型训练阶段的攻击,提出基于模型参数分析的攻击检测方法,从而拦截恶意模型防止数据泄露。

 

三、论文创新点

 

提出基于模型剪枝的数据泄露防御方法、提出基于模型参数分析的攻击检测方法

 

四、思维导图

 

 

五、主要技术点

 

(1)数据沙箱

 

数据沙箱分为调试环境和运行环境,数据拥有者将原始数据托管到运行环境中,并自动生成不包含隐私信息的样例数据。数据分析人员在调试环境中根据样例数据编写 AI 模型训练代码,并将其发送到运行环境。该代码在运行环境中对全量的原始数据进行分析,最终得到高可用性的 AI 模型,返还给数据分析人员。这一流程中,数据分析人员没有直接接触原始数据,又实现了 AI 模型在全量数据上的充分训练。

 

(2) 数据增强操作

 

有时候是为了对数据进行扩充,提高训练效果,对原始数据进行一些处理,将原始数据输入到数据增强函数中,输出一些新的数据。这个操作的就是数据增强操作,比如对于图像数据来说比如裁剪和旋转。

 

(3)优化函数

 

 

其中,函数 L 为深度学习的损失函数,用于评价函数 f θx i 的判断结果与真实标签值 y i 之间的差距。 Φ ( θ )是正则项,通常用于防止 AI 模型出现过拟合的情况。AI 模型训练优化的过程可理解为根据训练数据 D ‘不断优化函数 f θ ,进而缩小损失函数的过程。模型训练完成后,数据分析人员可以从数据沙箱中提取训练好的模型 f θ ,用于具体AI 判断任务。

 

(4)正则项函数

 

Φ ( θ ) 通常用于防止 AI 模型出现过拟合的情况

 

(5)威胁模型

 

数据沙箱模式下,正常数据分析人员仅能通过样例数据编写代码而无法接触全量数据,因此无法直接拷贝数据或窃取其中的关键信息。然而,在运行环境的数据处理阶段和模型训练阶段,分析人员的代码直接作用于全量数据,因此仍然存在数据泄露的可能

 

人工智能中数据窃取攻击威胁模型有两种:

 

一种是在模型训练代码中加入了恶意正则项,也就是精心构造的正则项函数,这样模型的训练结果就是恶意AI模型,这种模型的参数会携带原始数据,会暴露原始的训练数据。

 

 

另一种是数据处理代码过程中生成恶意数据,攻击者修改数据增强函数,构建一些精心构造的数据,使得模型标签值带有原始数据信息,然后攻击者再构造相同的恶意输入,得到输出,输出信息中就包含了原始数据信息。

 

 

(6)模型训练阶段的攻击:

 

基于正则化函数的攻击

 

 

上图是恶意构造后的正则化函数,是模型参数,是平均值,和是练数据的特征值中抽取实数串以及其平均值,该串中的元素个数与模型参数中参数的个数相同。

 

可以发现和具有一致性,即具有相关性,当和相关性较大时,损失函数会减少,当二者相关性不高时,损失函数会增加。由此特性,可以从输出结果中,得到原始数据信息的值。

 

第二种针对模型训练阶段的攻击,利用符号编码训练数据的特征值。例如训练数据是图片(包含 [0, 255] 的像素点),该攻击方法则将图片中一个像素点编码为 表示的8位字符串。能够编码的字符串总长度等于参数   中元素的个数 k 。该编码方式下,攻击者将训练过程的正则项修改为:

 

 

当和的符号不同时,为正值,使得损失函数增加,使和得符号往相同的方向发展,训练结束后,攻击者提取参数的符号,每8个元素解码出一个像素值,进而还原图片。

 

(7)数据处理阶段的攻击:

 

提取图片数据中的像素值并对其进行压缩,分割像素值,然后生成恶意数据。

 

 

具体算法为:

 

 

定义编码的图像编号为 u,编码的像素点为 Pij,单张图片的高为 H、宽为 W、通道数为 C、单通道像素数量为 N=H×W,初始化恶意图片 x1 和 x2 为C×N 的全 0 矩阵。

 

生成恶意数据 DM 后,将其与原始训练数据融合,训练 AI 模型 fθ 。攻击者从数据沙箱中取得 AI 模型fθ ,在本地应用同样的恶意数据生成算法生成 DM,并将其输入 fθ 中,得到编码了原始训练数据的标签值,进而恢复原始训练数据。

 

(8)深度学习数据窃取攻击特征分析(检测方法)

 

对数据窃取攻击中训练的模型参数进行了详细分析。正常训练过程中,深度学习损失函数的正则项一般选取 L1 范式或 L2 范式。

 

 

L1 范式或 L2 范式的约束下,模型参数的分布通常属于正态分布。恶意模型训练过程引入了与数据或数据编码相关的正则项,因此模型参数的分布可能发生变化。

 

 

可以看出,该算法对数据处理阶段攻击效果不明显,对模型训练阶段效果较为明显。

 

(9)模型训练阶段攻击的参数分析检测

 

针对恶意训练模型和正常训练模型之间的参数分布差异,此文提出提取参数关键特征值的方法自动化区分恶意模型与正常模型。对任意输入的模型参数,本文首先统计分析其中某一卷积层参数的分布特征,主要包括参数的极小值、极大值、数量、均值、方差等。为评判其中模型参数 是否符合正态分布,本文额外引入了偏度S和峰度K 2 个统计概念

 

 

(10)数据处理阶段攻击的模型剪枝防御

 

剪除夹带恶意数据的神经元同时保留其他神经元,就能够在防御数据窃取攻击而不损失模型准确率。该文用正常数据测试模型隐藏层的神经元激活值,对于那些正常测试数据预测过程中激活值较小神经元进行剪除,这种剪除对深度学习模型原本任务影响较小,而更有可能夹带训练数据。具体步骤:

 

 

六、总结展望

 

这篇文章介绍了在沙盒模型下的数据泄露问题,提出了针对沙盒模型的数据窃取攻击和针对窃取攻击的防御手段。攻击的手段有两种,一是利用模型训练阶段的攻击,构建一些恶意的训练模型,主要手段为构建恶意的正则化函数,或者构造一些恶意的编码方式。另一种是数据处理阶段的攻击,主要修改数据增强函数,构造一些恶意数据,这些恶意数据包含了训练集的数据信息。防御的方法,一是针对于数据窃取的特征分析,分析参数的分布是否为正态分布,并根据参数设计一个自动检测的函数。二是设计了基于模型剪枝的的防御方法,可以在数据处理阶段使用。

 

但是该文也有一些不足,首先来说这篇文章 基于模型参数分析的攻击检测方面,由于应用了机器学习技术检测模型参数,造成检测速度较慢、资源开销较多,需要进一步提升性能;基于模型剪枝的数据泄露防御方面,对于复杂任务复杂模型的防御效果不足,需要设计新算法或新机制提升防御效果。

 

我个人感觉,这篇文章的应用场景是针对于图像的,主要是针对于图像数据集,可能因为图像信息更容易逆向恢复。我觉得可以更换一些应用场景,设计出基于文本,其他输入数据之类的攻击和防御手段,为其它应用场景设计一些正则化函数,数据增广函数,从而实现攻击。或者提出其他应用场景的防御手段。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注