Press "Enter" to skip to content

【交易技术前沿】一种基于机器学习的攻击源画像构建方法

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

选自《交易技术前沿》第48期

 

一种基于机器学习的攻击源画像构建方法

 

李骏韬 / 上海证券交易所 信息科技部

 

邮箱:[email protected]

 

随着网络安全形势日益复杂,主动式防御已经成为安全体系建设趋势,针对目前第三方威胁情报库大而全但数据质量不可靠,缺乏定制化信息等不足,本文提出了一种基于机器学习的攻击源画像构建方法,可以对攻击源攻击行为的时间、空间、频率、手段等特征进行梳理抽象,明确攻击源类型,有效筛除低效信息,与第三方威胁情报库提供的情报进行比对和互补,为攻击应对措施提供决策支持,降低应对判断难度,提高响应及时性,同时也能为后续攻击溯源提供辅助信息。

 

1、引言

 

近年来,网络空间安全形式日益严峻,网络攻击呈现出专业化、复合化、持续化的特征,而金融行业作为关键信息基础设施的重点领域,更是网络安全事件的重灾区,网络攻击数量常年位居各行业前三。针对这一情况,各国政府都高度重视关键信息基础设施尤其是金融行业的网络安全建设工作,出台了大量法律法规与指导意见。

 

面对当下日益严峻的网络安全形势,传统的通过防火墙、IPS、杀毒软件等软硬件所组成的被动防御体系已经无法完全满足网络安全防护的实际需求,在此基础之上,引入大数据、机器学习、威胁情报等新兴技术,建立更加主动的网络安全防御体系显得尤为重要。

 

本文结合了金融行业核心机构的网络安全实践的现状,以构建攻击源画像为主要研究方向,提出了一种基于机器学习的攻击源画像构建方法。通过该方法,可以对攻击源攻击行为的时间、空间、频率、手段等特征进行梳理抽象,明确攻击源行为特征类型,有效筛除低效信息,与第三方威胁情报库提供的情报进行比对和互补,为攻击应对措施提供决策支持,降低应对判断难度,提高响应及时性,同时也能为后续攻击溯源提供辅助信息。

 

2、相关实践现状

 

2.1   第三方威胁情报

 

目前,第三方威胁情报产业经过数年的发展,已经形成了较为成熟的产品和市场,基于通用的STIX、TAXII等标准和规范,可以实现通用的机器可读威胁情报,并在不同场景进行应用。但是厂商往往只提供了标准化的信息访问服务和功能,无法针对用户提供定制化的情报,并没有真正提供满足预期的内容和管理服务。此外,不少厂商所提供的威胁情报服务并未对情报本身进行可靠的质量审核,甚至基本不对情报本身进行审核。笔者曾在工作实践中发现,某厂商的威胁情报产品将全球最大做市商之一的Optiver官方网站识别为恶意网站的情况,且该公司网站并没有被披露曾经遭受过恶意攻击或篡改导致存在安全风险的情况。面对内容繁杂、规模庞大、关联复杂、数据质量不稳定的第三方威胁情报,大部分机构并还没有真正行之有效对其进行充分利用。

 

2.2   攻击溯源

 

近年来,随着网络安全防护体系由被动挨打逐步转为主动防御,攻击溯源也自然而然地成为了网络安全建设体系中的极为重要一环。目前,攻击溯源已经形成了一些较为成熟操作模式,同时也形成了一些自动化脚本和工具可供安全人员提高溯源效率。但总的来说,攻击溯源当前仍然依赖于经验丰富的安全技术人员,需要安全人员投入大量的时间和精力进行人工挖掘和探索。在日益复杂的网络环境下,大部分企业和机构的安全人员疲于简单应对网络攻击,在核实了攻击后,通常简单地对直接攻击来源封禁了事,难以投入足够的人力物力,深入开展攻击事件分析,更不用说投入大量的人力物力用于对攻击来源进行溯源甚至反制。

 

3、攻击源特征提取

 

3.1   攻击数据来源

 

如前文所述,目前威胁情报库的存在内容繁杂、规模庞大、关联复杂、数据质量不稳定、与用户实际需求存在差距等问题。为了更有效针对实际生产环境中所面临的网络攻击行为,本文以生产环境SOC平台所收集、过滤、统计和聚合得到的安全告警作为原始数据来源展开了研究。原始安全告警数据主要包含了表1所列的各项信息。

 

表1 SOC平台安全告警信息及说明

 

 

与第三方威胁情报库提供的威胁情报信息相比,本地SOC信息能够更加详细的记录攻击行为特征,具有更细粒度的攻击手段记录、攻击目标选择性、攻击的时间分布特征、攻击频率具体细节等详细信息。本文在研究和实验阶段,共选取了2021年某月一整月时间范围内实际生产安全告警数据,共计199,710条告警记录作为研究对象。

 

3.2   攻击源特征选择

 

通过构建攻击源画像,可以为攻击响应、应急、溯源、取证等提供有效快速的决策辅助,确定后续工作方向。为了实现攻击源画像的构建,就需要对攻击源的行为进行有效地抽象和凝炼,提取出隐藏在海量攻击行为中的共性特征。本文主要基于原始告警信息的统计数据,同时结合Maxmind的IP地理信息库(GeoIP2)[13]、洛克希德·马丁公司的杀伤链模[14]等作为外部知识对原有信息进行了扩充,最终形成了以下11个攻击源特征信息(详见表2),用于对攻击源进行描述。

 

表2 攻击源特征及说明

 

 

4、一种攻击源画像构建方法

 

目前,第三方威胁库在众多用户、厂商、白帽子等多方的共同努力下,已经针对恶意攻击源形成了较多标签,例如RAT、C&C、扫描、僵尸网络等等,可以有效地供安全人员参考。但是这些标签都是针对攻击源主要手段的描述,缺乏其他攻击频度、强度、广度、时间和目标选择偏好等攻击行为特征信息。本文将利用前文所提到的攻击源特征,基于机器学习算法来构建攻击源的画像。

 

通常来讲,攻击来源画像构建可以通过对已经清洗转换并抽象提炼的特征,经过一系列的逻辑判断,最终完成分类,也即专家系统。但是专家系统严重依赖于判断逻辑的选择,容易带入专家系统构建人员的偏见,也无法根据实际情况变化及时进行更新迭代。

 

针对专家系统的不足,本文采用了无监督学习-人工干预-有监督学习-优化-建立模型的方式,构建形成了攻击源画像模型。

 

4.1攻击源特征值归一化

 

不同的攻击源描述特征具有不同的维度和取值范围,为了更好进行模型计算和调优,尤其是为了更好的计算各个攻击源之间的距离,避免因为部分特征数值过大导致的距离计算权重过高,需要对攻击源特征进行归一化处理。本文所选取的特征的归一化方法如表3所示。

 

表3 攻击源特征归一化方法

 

 

4.2 基于聚类算法的攻击源类别生成

 

为了尽量减少专家系统的构建过程中由于专家的认知偏见导致的偏差,本文首先采用K-Means聚类算法,以归一化后的特征值作为样本坐标,生成了攻击源画像的基础类别(簇)。笔者以D1-D16的告警数据作为原始数据,经过统计处理得到了D7-D16共10组统计数据,将这10组统计数据作为训练集进行聚类运算。为了有效进行类型区分,簇数量设置为较大的20,共计得到了200个簇中心坐标。笔者对得到的200个簇中心坐标欧几里得距离(见公式1)进行了计算,共计得到19900个簇中心距离。

 

 

经统计,通过K-Means聚类算法得到的簇中心欧氏距离均值为3.17,最小值为0.19,最大值为11.96,分布如图1所示。

 

 

图1 簇中心欧氏距离分布

 

笔者将第一轮聚类得到的簇中心坐标全部赋权重为1,把簇中心距离最近的两个簇进行合并,新的中心坐标为用于合并的两个簇中心的加权平均,新簇中心坐标的权重为用于合并的两个簇中心权重之和。经过150轮迭代,最终得到了50个簇中心。合并后,簇中心欧氏距离均值为3.65,最小值为1.04,最大值为11.55,分布如图2所示。

 

 

图2 合并后簇中心欧氏距离分布

 

4.3   基于分类算法的攻击源画像

 

为了形成更加简单、易用、具有工程应用实践意义的攻击源分类方法,需要进一步根据现有的聚类结果,抽象形成由一系列判断语句组成的分类算法。

 

首先,笔者基于聚类算法的簇中心坐标,并根据样本与簇中心的欧氏距离,对D7-D23的样本进行了标注。同时,与聚类算法不同,不对样本特征值进行归一化基本不会对机器学习产生的分类判断语句产生影响,但却可以有效增加判断逻辑的可读性。因此,在进行分类算法运算时,笔者主要采用了未进行归一化的数据作为样本属性(其中,国家,阶段,时间段等非数值信息仍然进行了数值化处理)。

 

综合考虑到生产实践需求,笔者舍弃了随机森林、支持向量机等分类效果好,但是分类方法复杂的分类算法,选择了分类判断逻辑更为简单明了的随机树生成算法。同时,为了避免生成过于复杂和庞大的决策树,笔者将决策树的最大深度设置为6(若深度小于6,则无法生成具有50个以上叶子节点的决策树,也即无法得到与现有类别相匹配的具体分类算法),最终得到了攻击源分类决策树如图3所示。

 

基于随机树生成算法所生成的分类逻辑,笔者选取了D24-D31的数据作为测试集,进行了攻击源分类。由于攻击源画像和分类难以进行明确的客观测试和评估,笔者随机选取了125个攻击源IP样本及其对应的分类结果,补充了相关原始告警以及所属类别(簇)属性等相关信息,邀请5名安全人员分别对50个样本的分类结果进行了评估,每个攻击源的分类结果都有2名安全人员进行了评估,评估结果如表4所示。

 

表4 攻击源画像安全人员评估结果

 

 

 

图3 攻击源分类决策树示意图

 

5、结语

 

通过本文提出的攻击源画像构建方法,可以较为有效利用各机构自身所收集到的第一手攻击信息,构建外部攻击源画像。通过构建的攻击源画像,安全人员可以基于该攻击源的历史行为特征,快速有效地判断威胁的紧急和严重程度,更快地进行安全应对措施决策。

 

不过,目前的攻击源画像主要采用了离线方式进行计算和构建,尚处于实验室阶段。下一阶段,笔者将与本机构的一线安全人员一起,尝试将攻击源画像构建与SOC平台进行整合,尽快达到实用化。

 

同时,在实验中笔者也发现,目前构建的攻击源画像受限于SOC平台提供的数据,该部分数据已经进行了高度抽象,大量原始攻击特征信息已经丢失。由于缺乏攻击源的攻击手段详细信息,无法形成攻击源和攻击行为指纹,目前只能为即时攻击应对决策和初步溯源工作的提供支持,对于深入挖掘、分析和溯源的参考和辅助意义相对有限,后续笔者也将结合SOC前的原始告警信息开展进一步的研究工作。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。