Press "Enter" to skip to content

腾讯AI Lab:图深度学习在内容风控和APT检测中的应用

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

 

分享嘉宾 :荣钰&张恒通 腾讯 高级研究员

 

编辑整理:付欣岚  中国农业银行

 

出品平台:DataFunTalk

 

导读: 在社交网络风控领域,对于真假消息的判断是个非常关键的问题,如何快速准确定位社交网络上传播的谣言或不实信息对于许多业务而言都有着十分重要的意义。 例如在疫情期间,如何识别网上的一些谣言非常重要。 社交网络的谣言和普通的假新闻有什幺区别? 本次分享的嘉宾是腾讯AI Lab的荣钰和张恒通,分享题目为《图深度学习在内容风控和APT检测中的应用》,主要介绍:

 

基于图深度学习的内容风控

 

基于图深度学习的APT检测

 

01

 

基于图深度学习的内容风控

 

1. 社交网络上面临的内容风控挑战

 

首先,在社交新闻传播场景下,新闻的语义信息和本身的真伪没有必然联系,甚至有时还会存在对抗。单靠文本信息很难鉴别新闻的真伪,假新闻和真新闻的词云的相关性很高,如下图所示。

 

 

其次,在社交网络场景下,信息的传播本身会非常复杂。新闻在社交网络上传播会带有用户的行为,例如评论、转发行为,不同的用户对新闻的反应不一样。信息所处的社交上下文(即除新闻文本以外的信息,例如参与信息传播的用户本身的社交关系以及信息传递树,如下图所示)对于鉴别信息的真伪判断具有重要帮助。

 

 

不同主题的新闻其文本特征和传播特征都有非常大的区别。对于不同新闻来说,受众不一样。不同主题的新闻如何使用同一个模型来识别也是一大挑战。

 

 

总结而言,有两大问题。

 

①如何同时建模新闻本身的信息和其社交上下文信息?

 

②如何应对不同主题新闻真伪的判断?

 

针对以上两个问题,接下来介绍腾讯的方法。

 

2. 基于社交上下文的多主题谣言检测

 

(1)数据建模

 

新闻被转发的序列集合P中的元素为新闻被转发的信息,包括评论或用户行为。新闻传播树在社交谣言检测中已经被用到,在腾讯早前AAAI的工作中已经讨论如何利用传播树构造图神经网络来做判断,传播树的背后是用户,用户本身是有社交网络关系,被称为用户关系子图,这对新闻真伪判断可能有帮助。此外,用户和新闻之间存在二部图,建模用户和新闻之间的关联关系,代表用户对新闻的参与程度。 整体来看,新闻可以表示为一个包含新闻文本,传播树和传播关系链的异构图网络,即新闻异构图。

 

 

(2)问题定义

 

如果已知新闻集合和真假标签,我们的目标是得到一个模型,给定任何一个输入新闻异构图,预测其标签。

 

 

3. Post-User Interaction Network (PSIN)

 

(1)模型总览

 

Post-User Interaction Network (PSIN)模型解决以下五个问题:

 

新闻本身的语义特征建模

 

跨主题新闻模型建模

 

新闻传播树的建模

 

用户社交关系建模

 

用户-新闻二部图建模

 

模型分为编码(Encoder)和特征混合(Fusion)两个阶段。

 

在模型的Encoder阶段采取分治策略,通过设计不同的图神经网络编码不同的图;在Fusion阶段,通过连接和池化将三个部分的Embedding组合成最终的输出。在最终loss求解时,引入领域自适应的方法,使得模型的训练可以跨多主题领域对新闻进行检测。

 

 

(2)节点特征编码

 

节点特征编码模块为了处理用户节点和Post节点对齐问题。

 

节点包含两类特征:文本特征和非文本特征。为了更好地进行特征融合和处理,采取统一处理框架,对非文本特征采用NLP与文本特征重合,这里采取门机制。例如大V用户和普通用户评价分量不一,通过门机制来进行控制。通过节点特征编码将新闻和用户这两类节点的特征编码到统一空间。

 

 

(3)对传播树的建模:TreeGAT

 

统一到同一空间后对三类图进行建模,传播树上的建模提出了TreeGAT方法。在计算GAT的权重时考虑节点之间在传播树上的距离,并归一化到0到 空间,用来查询可学习矩阵的Indexing,这里传播深度是借鉴了NLP中对词向量编码思想。

 

在边增强模块里,单纯Tree的信息比较少,需要建模节点的二部信息甚至三部信息,采取基于高阶邻接矩阵叠层方式增强边的数量。这种无向性会丢失深度信息,因此在模型中再加回来深度信息。

 

 

(4)对用户关系子图建模:R-GAT

 

在微博或者Twitter中,用户的关系并不是双向的。图神经网络对有向图的处理存在缺陷,因此有向图的图神经网络的设计和无向图的设计是完全不一样的。为了解决有向图建模的问题,基于用户的关注关系,将有向图拆解为三个无向图,类似于Transformer中多头注意力的思想。

 

基于三个无向图,构造R-GAT模型,与普通GAT最大的区别在于计算权重时包含三个参数,实际上是两个,因为在拆解中存在冗余信息。

 

 

(5)对用户–新闻二部图建模:GATv2

 

通过上述统一的特征编码模块,输入到图神经模块的post和user的特征已经对齐,在这一场景中不存在不同图的问题。利用边增强模块把二部图转换成简单图,使用GATv2作为Backbone对转换后的简单图进行编码。相对与原始的GAT,GATv2对模型的表达能力有提升。

 

 

(6)跨主题的谣言检测

 

对于在训练集中没有出现的主题,模型如何识别跨主题的假新闻。

 

引入领域自适应的经典方法,在最终loss中考虑主题分类损失。通过Gradient Reversal Layer作用到输出特征上,目的是为了前面的特征编码器尽可能不区分新闻主题,从而得到与新闻主题无关、但可以判断新闻真伪的特征,提升跨新闻主题的模型泛化性。

 

 

4. 实验

 

(1)数据收集

 

①构造当前最大的多主题谣言检测数据集:MC-Fake。

 

②新闻标签:基于现有数据集中的标签进行汇总收集。

 

使用数据集:FakeNewsNet, FakeHealth, FA-KES, FakeCovid, MM-COAID, CFND

 

涵盖5个主题:Politics, Entertainment, Health, Covid, Syria War

 

包含27155个新闻

 

③社交新闻数据收集:基于关键词搜索,包含Tweets /Retweets/ Replies。

 

500万条发帖数据

 

④社交关系收集:基于发帖数据构造的社交子图。

 

2百万个用户,2亿条边

 

 

(2)数据集分析

 

如下图所示,根据发帖内容的文本情感分析结果、真实和虚假消息里面机器人用户的比例,以及只转发真实消息和只转发虚假消息的社交网络用户统计,对于真假新闻的分析结果有显着差异。

 

 

(3)在跨主题上谣言检测实验结果

 

在两种Setting下,模型相比baseline均有提升。

 

 

(4)消融实验

 

无论是同主题还是跨主题,去掉任意模块都会对性能有影响。

 

 

(5)可视化实验

 

加入领域自适应后,真假区分更加明显。这种更好的分离度代表更好的泛化性,证实了跨主题是十分有用的模块。

 

 

5. 基于社交上下文的谣言检测-总结

 

①定义了基于社交上下文的谣言检测问题,并且首先考虑了跨主题谣言检测的场景。

 

②收集并构造了当前规模最大的谣言检测数据集:MC-Fake。MC-Fake同时包含了社交上下文和多主题谣言数据。可以作为这一新的研究课题基础数据集。

 

③提出了一个新的模型:PSIN,采用了分治的策略对于带有社交上下文的异构关系进行建模,并且通过引入GRL使得模型输出特征可以在不同主题之间自适应对齐,提升跨主题的泛化性。

 

④项目主页: https://qwerfdsaplking.github.io/PSIN/

 

⑤相关论文:

 

Divide-and-Conquer: Post-User Interaction Network for Fake News Detection on Social Media, In The WebConf 2022

 

02

 

基于图深度学习的APT检测

 

1. APT 检测简介

 

APT(Advanced Persistent Threats)指隐匿而持久的电脑入侵过程。在风控领域,用户行为可以类比为APT进程中的行为。APT通常由某些人员精心策划,针对特定的目标。出于商业或政治动机,针对特定组织或国家,并要求在长时间内保持高隐蔽性。这些入侵过程将会反映在系统日志中,实时或者离线从数据中挖掘可能入侵过程并进行复盘。APT过程如下图所示。

 

 

APT检测主要方式分以下两种 。

 

(1)基于异常检测(Anomaly Detection)

 

通过模型或规则判断系统单一事件是否异常事件。例如系统日志中是否存在某个进程访问敏感文件?某一进程是否来自未知IP地址?某些dll文件是否被替换?

 

这种方法问题在于只能检测单一行为,无法考虑整个APT全貌,通常有很高的误报率。

 

(2)基于匹配(Matching & Alignment)

 

建立APT库,模糊匹配系统中的APT行为片段,对其领域时间的邻近事件进行分析。

 

 

将围绕进程产生的系统行为组织成异构图的形式。例如图中有进程、IP地址、相关文件、系统进程的动作,整个日志组成一张系统事件图。查询图可以理解为一些典型的APT行为。在系统事件图中进行模糊匹配以发掘是否存在攻击行为。匹配的方式是局部拓扑结构、相关事件的类型、标签等。

 

2. 现有典型方法的缺陷

 

基于查询图的方法 ,现有代表作为Aligning Attack Behavior with Kernel Audit Records for Cyber Threat Hunting (POIROT CCS19), Real-time APT Detection through Correlation of Suspicious Information Flows (HOLMES S&P19) 等,其主要问题是:

 

基于启发性,需要利用大量领域知识将匹配归因到APT步骤范式(HOLMES S&P19), 该方法存在问题有并不是所有黑客的攻击会遵循固定的范式,或者有些行为并未被系统日志收集到。

 

无法充分利用局部拓扑结构特征和实体标签信息(HOLMES S&P19) , (HOLMES S&P19) ,传统的图算法难以刻画这些信息。

 

对于单一查询需要一次性的运用复杂度极高的图算法(DFS, Lowest Common Ancestors),因而 很难做到实时性(POIROT CCS19)。

 

无法复用中间结果,效率较低。

 

3. 基于深度图学习的方案

 

基于图预训练方法,对系统事件中的实体和边进行表示学习,达到高效匹配。

 

首先在接到系统日志后组织成系统时间图并建立缓存和索引。

 

 

(1)缓存各实体(进程、网络地址)的如下信息,以避免重复计算:

 

各实体的邻居实体。

 

邻居实体的信息: 标签、邻居实体、类型等。

 

 

(2)对各实体进行预训练,获得可复用的、信息丰富的特征(feature/fingerprint):

 

①通过两个预训练任务学习节点的特征:

 

邻居节点预测

 

资源所属进程预测

 

②查询图中节点可加入一同学习,确保系统事件图和查询图的节点特征处于同一空间。

 

进程是发起各种行为的主体,对进程的刻画尤为重要。两个预训练主要围绕进程和各种资源(文件、网络地址)的刻画。系统事件图和查询图一起训练,可以保证特征和参数来自于同一个表示空间。

 

 

在邻居节点的预测任务中,firefox是一个进程,建立起对邻居节点的预测。

 

 

根据围绕进程的种种资源,从而预测进程。至此得到一个网络,提取了系统图中的特征。

 

 

③建立查询图中进程与系统行为图中进程配对关系集合。

 

④对匹配度进行敏感性分析(卡方分析)。

 

进程对齐,从而可以对查询图进行高效匹配。如果不考虑各节点类型,会十分低效。但如果关注进程节点,通常会较快完成匹配。

 

 

⑤ 对于每个TOP-K的对齐进程对,做以下操作:

 

对查询图进行BFS,得到匹配序列。

 

对于查询图中每个实体,匹配距离进程同样跳数(hop)的实体。匹配方法与进程实体匹配相同。

 

 

⑥得到TOP-K匹配子图。

 

⑦当积累的黑样本较多后,可根据ground truth,在图预训练模型的基础上,fine-tune子图的排序方法。

 

4. 实验

 

(1)测试数据

 

美国DARPA (Defense Advanced Research Projects Agency) Engagement  3 数据集,包含15次实际APT 攻击和百亿条系统日志。

 

APT ground truth 的统计量:

 

 

(2)评价指标

 

召回率:Top-K返回的子图中包含的查询图实体个数/查询图实体总个数。

 

 

在Windows场景下,当返回20~50个值,可以确定约80%的进程节点,其他场景下有类似的结果。

 

 

以某攻击日志为例,在还原的攻击图中,准确还原了IP地址和一些进程可执行文件,恢复出APT事件的概貌,帮助安全人员找到可能的攻击行为。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。