Press "Enter" to skip to content

基于异构图卷积网络的网络威胁情报建模

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

原文作者:Jun Zhao, Qiben Yan, Xudong Liu, Bo Li, Guangsheng Zuo

 

原文标题:Cyber Threat Intelligence Modeling Based on Heterogeneous Graph Convolutional Network

 

原文链接:https://www.usenix.org/system/files/raid20-zhao.pdf

 

[email protected]

 

介绍

 

论文针对当前网络威胁情报(CTI)存在三个主要局限性:IOC提取的准确性低;孤立的IOC几乎无法描述威胁事件的全面情况;异构IOC之间的相互依存关系尚未得到开发,提出了基于异构信息网络(HIN)的网络威胁情报框架HINTI,以对CTI进行建模和分析。

 

本文主要贡献:

 

• 提出基于多粒度注意力机制的IOC识别,可以从非结构化威胁描述中自动提取网络威胁对象。 • 使用异构信息网络(HIN)对不同类型的IOC建模,获取IOC之间的依存关系。 • 提出网络威胁情报计算框架。 • 实现CTI原型系统

 

HINTI工作步骤示例

 

• 通过B-I-O序列标注方法对安全相关帖子进行标注,用于构建IOC提取模型。 • 将标记的训练样本输入神经网络,训练IOC提取模型。 • HINTI利用句法依赖性解析器(e.g.,主-谓-宾,定语从句等)提取IOC之间的关联关系,每个IOC均表示为三元组(IOCi,relation,IOCj) • 最后,HINTI集成了基于异构图卷积网络的CTI计算框架以有效地量化IOC之间的关系进行知识发现。

 

HINTI总体架构

 

HINTI由四个主要部分组成:(a)收集与安全相关的数据并提取即IOC;(b)将IOC之间的相互依存关系建模为异构信息网络;(c)使用基于权重学习的相似性度量将节点嵌入到低维向量空间中;(d)基于图卷积网络和知识挖掘来计算威胁情报。

 

 

方法论

 

1. 基于多粒度注意力的IOC提取

 

 

利用了多粒度注意机制来表征IOC,与传统的BiLSTM + CRF模型不同,引入了具有不同粒度的新词嵌入功能,以捕获具有不同大小的IOC的特征。此外,利用自注意力机制来学习功能的重要性,以提高IOC提取的准确性。设计了如下目标函数最大程度地提高概率p(Y | X),以实现针对不同IOC的最高标签得分。

 

 

2. 网络威胁情报建模

 

引入HIN,以探索不同类型的IOC之间的交互关系。在6种类型的IOC之间定义了以下9种关系:攻击者利用漏洞、攻击者入侵设备、攻击者之间合作、漏洞影响设备、脆弱性属于攻击类型、漏洞包括恶意文件、恶意文件针对设备、脆弱性演化脆弱性、设备属于平台。基于这9种关系,HINTI利用句法依赖解析器从威胁描述中自动提取IOC之间的9种关系,每种关系用三元组(IOCi,relation,IOCj)表示。同时进一步定义下表所示的17种元路径,以探讨攻击者、漏洞、恶意文件、攻击类型、设备、平台之间的相互关系。通过检查17种类型的元路径,HINTI能够传达更丰富的事件上下文,并揭示异构IOC的深层信息。

 

 

3. 威胁情报计算

 

通过分析基于元路径的语义相似性来量化和衡量IOC之间的相关性。定义基于异构图卷积网络的威胁情报计算。给定威胁情报图G =(V,E)和元路径集M = {P1,P2,…,Pi}。威胁情报计算:i)基于元路径Pi计算IOC之间的相似度,以生成相应的邻接矩阵Ai;ii)通过将IOC的属性信息嵌入到向量空间中,构造节点Xi的特征矩阵;iii)进行图卷积GCN(Ai,Xi),通过遵循元路径Pi量化IOC之间的相互依赖关系,将其嵌入到低维空间中。定义基于权重学习的节点相似性度量。定一组对称元路径集合P=〖[P_m]〗_(m=1)^(M^’ ),任意两个IOC hi和hj之间的相似度S(hi,hj)定义为:

 

 

利用交叉熵损失来优化提出的威胁情报框架的性能:

 

 

数据集及实验结果

 

开发了威胁数据收集器,自动收集网络威胁数据,包括73个国际安全博客(例如,fireeye,cloudflare),黑客论坛帖子(例如,Blackhat,Hack5),安全公告(例如,Microsoft,Cisco),CVE详细说明和ExploitDB。已经收集了超过245,786个描述威胁事件的与安全相关的数据。为了训练和评估我们提出的IOC提取方法,利用B-I-O序列标记方法对5,000个文本中的30,000个样本进行了注释。最终模型最佳执行的超参数:

 

 

IOC提取性能:

 

 

不同粒度的嵌入功能进行IOC提取的性能:

 

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注