Press "Enter" to skip to content

AI安全典型攻击方式

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

闪避攻击

 

闪避攻击是指通过修改输入,让AI模型无法对其正确识别。闪避攻击是学术界研究最多的一类攻击,下面是学术界提出的最具代表性的三种闪避攻击,即对抗样本攻击、物理世界的攻击、传递性与黑盒攻击。

 

对抗样本攻击

 

研究表明深度学习系统容易受到精心设计的输入样本的影响。这些输入样本就是学术界定义的对抗样例或样本,即Adversarial Examples。它们通常是在正常样本上加入人眼难以察觉的微小扰动,可以很容易地愚弄正常的深度学习模型。

 

微小扰动是对抗样本的基本前提,在原始样本处加入人类不易察觉的微小扰动会导致深度学习模型的性能下降。 Szegedy等人在2013年最早提出了对抗样本的概念。在其之后,学者相继提出了其他产生对抗样本的方法,其中Carlini等人提出的CW攻击可以在扰动很小的条件下达到100%的攻击成功率,并且能成功绕过大部分对抗样本的防御机制。

 

物理世界的攻击

 

除了对数字的图片文件加扰, Eykholt等人对路标实体做涂改,使AI路标识别算法将“禁止通行”的路标识别成为“限速45”。它与数字世界对抗样本的区别是,物理世界的扰动需要抵抗缩放,裁剪,旋转,噪点等图像变换。

 

传递性与黑盒攻击

 

生成对抗样本需要知道AI模型参数,但是在某些场景下攻击者无法得到模型参数。 Papernot等人发现对一个模型生成的对抗样本也能欺骗另一个模型,只要两个模型的训练数据是一样的。这种传递性( Transferability)可以用来发起黑盒攻击,即攻击者不知道AI模型参数。其攻击方法是,攻击者先对要攻击的模型进行多次查询,然后用查询结果来训练一个“替代模型”,最后攻击者用替代模型来产生对抗样本。产生出来的对抗样本可以成功欺骗原模型。

 

药饵攻击

 

AI系统通常用运行期间收集的新数据进行重训练,以适应数据分布的变化。 例如,入侵检测系统( IDS)持续在网络上收集样本,并重新训练来检测新的攻击。在这种情况下,攻击者可能通过注入精心设计的样本,即药饵,来使训练数据中毒(被污染),最终危及整个AI系统的正常功能,例如逃逸AI的安全分类等。深度学习的特点是需要大量训练样本,所以样本质量很难完全保证。

 

Jagielski等人发现,可以在训练样本中掺杂少量的恶意样本,就能很大程度干扰AI模型准确率。他们提出最优坡度攻击、全局最优攻击、统计优化攻击三种药饵攻击。并展示了这些药饵攻击对于健康数据库,借贷数据库跟房价数据库的攻击,影响这些AI模型对新样本的判断。通过加入药饵数据影响对用药量的分析、对贷款量/利息的分析判断、对房子售价的判断。通过加入8%的恶意数据,攻击者能够使模型对超过50%的患者的用药量建议时,出现超过75%的变化量。

 

后门攻击

 

与传统程序相同, AI模型也可以被嵌入后门。只有制造后门的人知道如何触发,其他人无法知道后门的存在,也无法触发。与传统程序不同的是,神经网络模型仅由一组参数构成,没有源代码可以被人读懂,所以后门的隐蔽性更高。攻击者通过在神经网络模型中植入特定的神经元生成带有后门的模型,使得模型虽然对正常输入与原模型判断一致,但对特殊输入的判断会受攻击者控制。如Gu等人[6]提出一种在AI模型中嵌入后门的方法,只有输入图像中包含特定图案才能触发后门,而其他人很难通过分析模型知道这个图案或这个后面的存在。此类攻击多发生在模型的生成或传输过程。

 

模型窃取攻击

 

/训练数据窃取攻击是指攻击者通过查询,分析系统的输入输出和其他外部信息,推测系统模型的参数及训练数据信息。与Software-as-a-Service类似,云服务商提出了AI-as-a-Service( AIaaS)的概念,即由AI服务提供商负责模型训练和识别等服务。这些服务对外开放,用户可以用其开放的接口进行图像,语音识别等操作。 Tramèr等学者提出一种攻击,通过多次调用AIaaS的识别接口,从而把AI模型“窃取”出来。这会带来两个问题:一是知识产权的窃取。样本收集和模型训练需要耗费很大资源,训练出来的模型是重要的知识产权。二是前文提到的黑盒闪避攻击。攻击者可以通过窃取的模型构造对抗样本。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注