Press "Enter" to skip to content

基于非图像域的对抗样本检测

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

为了既能识别扰动大而广的对抗样本,又能检测扰动比较小而稀疏的对抗样本,中科大和阿里安全图灵实验室提出了基于图像域和梯度域的双流对抗样本检测网络,图像域用于识别扰动大而广的对抗样本,梯度域用于识别扰动比较小而稀疏的对抗样本。该方法能够有效识别各类对抗样本,从而提升防火墙的检测能力,该研究最近被ICASSP2021收录。

 

去年,阿里安全图灵实验室已发布了一款“AI安全诊断大师”,主要包含两个功能:“诊断”,对AI模型进行全面的安全性评估;“开药”,针对AI系统的缺陷,提供提升模型防御能力的工具箱。

 

在防御能力提升的工具箱中,有一个比较重要的模块就是“AI安全防火墙”系统,“AI安全防火墙”系统会有效得将恶意攻击(对抗样本)从正常流量上识别出来,从而进行针对性地处理和识别。

 

“AI安全防火墙”中一个重要的关键技术就是对抗样本检测,对抗样本的重要特性之一就是人眼无法区分,这导致对抗样本的检测是无法通过大量人工打标进行,给该领域的研究带来了很大的困难。

 

2020年,阿里安全图灵实验室还提出了一种基于Transformer的对抗样本检测方法,改进了传统对抗样本检测方法只能检测特定攻击,难以泛化到其他攻击的缺陷(报道链接:https://zhuanlan.kanxue.com/article-11062.htm)。

 

 

此次的研究是上述研究的后续,上面的工作解决的对抗样本检测泛化性的问题,但是针对非常小扰动和非常稀疏的对抗样本的检测,是目前研究的难点。

 

如下图所示,目前最新的检测技术只能检测PGD这种扰动量比较大和修改区域比较多的对样本,但是在对于C&W-L2 和 DDN等这种扰动幅度小、扰动区域少的对抗样本,识别率就只能比50%多一些。

 

 

通过研究发现,对于小的扰动,在模型的预测输出的prediction的Logit上的最大值会比较偏低,表明小的扰动仅仅用最小的代价,就能使模型的不确信变得最大(即模型预测的熵最大),通过这个现象,研究者发现熵信息体现在了模型预测对输入图像的梯度图的幅值上。

 

 

为了既能识别扰动大而广的对抗样本,又能识别扰动比较小而稀疏的对抗样本,阿里安全图灵实验室提出了基于图像域和梯度域的双流对抗样本检测网络,图像域用于识别扰动大而广的对抗样本,梯度域用于识别扰动比较小而稀疏的对抗样本。

 

 

攻防总是相互促进的,道高一尺,魔高一丈,随着防御技术不断变强,各种各样的攻击形态越来越多样。对抗样本是在限制扰动的情况下的攻击形态,但是在真实应用场景中,阿里安全图灵实验室也发现了一类没有限制情况下的攻击形态,这类攻击很难应对。

 

阿里安全目前是从攻防两端以及产学研结合的方式来应对这种威胁:阿里安全联合清华大学和UIUC,举办了CVPR2021的AML-CV workshop(Workshop on Adversarial Machine Learning in Real-World Computer Vision Systems and Online Challenges),产学研结合探讨AI安全的问题。另外,三方在workshop上联合天池一起举办了2个比赛: CVPR2021 安全AI挑战者计划第六期:ImageNet无限制对抗攻击CVPR2021 安全AI挑战者计划第六期:防御模型的白盒对抗攻击

 

其中,无限制对抗攻击用于研究无限制情况下的攻击形态,防御模型下的白盒对抗攻击用于研究在已有防御方案下的模型安全性挑战。另外,在防御端,阿里安全也正在研究模型的鲁棒性学习,通过将领域知识嵌入到深度模型中,从数据驱动逐步进入到知识驱动的模型构建,从而有效得防御未知的攻击。

 

作者简介

 

(一作-中科大)陈可江,中国科学技术大学网络空间安全学院,博士后研究员。中国图象图形学学会数字媒体取证与安全专业委员会委员,主要研究兴趣包括信息隐藏与人工智能安全。在TIFS、TCSVT、ICCV、ICASSP等国际知名期刊和会议上发表论文十余篇。

 

(二作-阿里)越丰,阿里安全图灵实验室高级算法专家,主要从事面向安全领域的AI算法研究,课题包括多模态特征融合与检索、对抗样本、模型鲁棒性分析、迁移学习以及Deepfake识别等,他的研究成果应用于内容安全、知识产权和AI安全等产品中。在国际机器学习和网络安全顶级学术会议(如AAAI、ACM MM、ACM CCS、ICASSP等)上发表多篇高水平论文。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注