Press "Enter" to skip to content

网络空间对抗防御中的智能监测技术研究

摘  要:

 

网络空间数据流观测与威胁行为分析是国家网络空间安全防御中的重要方向。为应对国家网络空间大规模数据流观测和不断涌现的网络威胁对抗防御重大需求,针对传统基于时域、依赖先验知识的网络数据流威胁监测方法存在分析效率低、准确率低、误报率  高等不足,在调研分析现有网络流智能检测技术和提取公开科学问题的基础上,借鉴电磁世界频谱、光谱理论,围绕“域变换”“谱推导”总体解决思路,提出网络空间流谱基础理论,给出流谱、变换空间的定义及网络流特征矩阵、流谱变换的数学表示,从可分离性、表征性出发给出了面向流谱变换的指标评估体系, 基于网络流数据进行了基本可行性分析,初步验证流谱理论在网络威胁表征的可行性,以期从新的视角和对抗性思维理解认识网络空间和网络防御问题,为同行提供借鉴参考。

 

内容目录:

 

1对抗防御及当前安全问题描述

 

2 网络流智能监测技术综述

 

2.1基于模型及方法创新的网络流监测研究

 

2.2基于特定应用场景的网络流监测研究

 

2.3基于学习方式的网络流监测研究

 

2.4公开科学问题分析

 

3 流谱理论提出

 

3.1流谱定义及变换域空间

 

3.2 网络流特征矩阵

 

3.3流谱变换

 

4 面向流谱变换的指标评估体系

 

5 流谱理论在对抗防御中的可行性验证

 

随着网络和信息化技 术的发展,网络空间数据规模体量爆炸式增长、内涵外延边界裂变   式衍生、与实体空间铰链式耦合,网络威胁呈现通信加密、分片传输、特征频变、时序混淆、深度伪装、行为混杂等特点,网络安全防御面临威胁看不全、看不完、看不到、看不懂等一系列问题。 作为网络大国,我国网络防线表现   出大纵深、线长、面宽、点多等特点,面临的网络安全威胁形势越来越严峻。 传统基于时域、依赖先验知识的威胁监测方法存在分析效率低、准确率低、误报率高等不足,难以应对国家网络空间大规模数据分析和不断演化涌现的网络安全威胁,亟待从新的视角和对抗性思维理解 中认识网络空间和防御问题,提出新型的网络空间数据流观测与威胁行为分析理论,指导生成智能化的威胁监测方法,精确发现预判网络空间安全隐患和识别预警国家级网络威胁,提高我国网络空间防御水平。

 

当前面向网络流的主要分析方法是针对流 数据的原始分布展开研究,通常以同一五元组 确定的一条网络流作为研究对象,一条网络流 由多个网络数据包组成,而在一次网络连接、 传输过程中,如果流数据在分布、统计上与大 部分背景流量存在较大的差异,那幺就可以认 为流数据有着异常的分布;如果流数据的分布 或特点符合先验知识,那幺网络流将被识别处理。可以看到,已有方法主要聚焦网络流在原 始时空域空间中的分布分析,如果在时空域上 网络流的分离性和表征性有限,那幺即时训练的模型或规则很难达到满意的检测效果。亟需 加强基础创新研究,提出新的理论来刻画描述 网络空间数据流、表征分析各类网络行为,解 决大带宽、小样本、频演化、流加密等条件下 的威胁分析难题。

 

我 们 认 为,   应 该 在 现有 防 御 体 系 的 基 础上,用对抗性的思维和视角,去审视思考网   络空间防御,  进而提出“流谱”的概念。定义: “ 网络空 间中, 可观 测的 复杂 网络 流按 照某种 时域到 某变 换域 的映 射方 法,形 成的 可分离、可解释、可计算的特征表示集合,称之为网络流谱,简称流谱。”具体到网络空间   防御应用方向,又具象成“行为谱”,   即“以网络行为作为表征向量的流谱”。这样,如果把网络正常行为作为基线,那幺“行为谱” 可以直接推导出“威胁谱”,从而实现对网络威胁的高效分析。

 

具体而言,本文聚焦网络空间防御中智能 检测及流谱空间中的表征技术开展研究,结构 如下:  第 1 节提出对抗防御理念并分析其内涵,  第 2 节从方法、场景、应用性等方面对现有网络 流智能检测技术现状进行分析对比,第 3 节提 出流谱基本理论,给出流谱、变换域空间的定 义及网络流特征矩阵、流谱变换域的数学表示,  第 4 节从可分离性、表征性出发,  给出面向流谱 变换的指标评估体系,基于公开的 CICIDS2017 数据集对提出的流谱理论进行仿真实验验证,第 5 节总结全文。

 

01

 

对抗防御及当前安全问题描述

 

按照安全机理不同,网络空间防御可被划   分为内生防御、保护防御和对抗防御 3 种。 其中, 内生防御是指依靠网络自身构造和运行因素而  产生及演进的安全效应和能力,来遏制和抗击   网络威胁或破坏行为。 保护防御是指在网络空   间发生的,利用访问控制、入侵检测、应急响   应等方法,遏制和抗击网络空间威胁或破坏行   为。 对抗防御是在网络空间发生的,发现、定位、 溯源、预警、处置、遏制和反击敌在或通过网   络空间产生的威胁或破坏行为的各类措施与活  动。 其中,  对抗防御主要用于有效遏制国家级、大规模、高隐蔽攻击威胁,主要包括以下特点:

 

(1)非合作或弱合作条件防御。合作指的 是被防御者与防御者之间的配合程度。一方面,  大量的被防御者出于政策、体制、思维模式等 考虑,不提供相应配合;另一方面,过度要求 被防御者的配合,也会影响到被防御者的正常 业务,为此,网络空间防御的大量业务会在非 合作或弱合作的条件下开展。这是思考和认识对抗防御的基本出发点。

 

(2)网络空间状态可观测。在弱合作和非 合作条件下开展对抗防御,就必须对网络空间 的状态进行掌握,如何对庞大的空间状态进行 掌握,需要在现有监测手段的基础上,提出一 种新的空间观测思路,能够满足在带外对空间 状态掌握的需求。

 

(3)融入网络空间防御大体系。对抗防御 是一种新的防御视角和模式,是现有防御体系 面对新威胁时必然产生的延展和加强,与现有体系相辅相成,互相支撑,共同见效。

 

因此,我们认为网络空间需要建立完善的 对抗防御机制,将攻击、威胁、恶意行为进行针 对性刻画,  在弱合作网络中实现异常行为检测。

 

02

 

网络流智能监测技术综述

 

目前,各类机器学习、深度学习技术和统计方法常被用于构建不同类型的入侵检测系统来保护网络。根据关注的研究点不同,现有研究大体 可以归为 3 类:一是关注修改模型或方法,用于 提升数据集分类及检测准确率;二是关注应用场 景,例如小样本检测、非平衡数据、网络流数据 增强、特征筛选过滤等;三是关注技术方式,如 使用无监督、半监督、自监督等非完全监督式学习方式进行检测,具体内容如表 1 所示。

 

表 1现有网络流监测研究工作汇总

 

 

续表

 

 

注:带 * 具有物联网等特殊应用特点,带 # 为多次测试的平均结果。

 

2.1基于模型及方法创新的网络流监测研究

 

关注模型以及方法创新的网络流检测技术, 往往从模型的结构出发,对成熟的机器学习、   深度学习算法进行修改、优化、更新,以提升  模型鲁棒性、泛化性并最终提升检测性能和准确度。

 

Yin 等人基于递归神经网络的检测系统的 二分类和多分类性能均优于传统分类方法,  提高 了入侵检测的准确性,为入侵检测提供了一种 新的研究方法。Wang 等人 首次对加密的网络 流分类域应用端到端方法,提出了一种具有一 维卷积神经网络(One-Dimensional Convolutional Neural Network,1D-CNN)的端到端加密网络流分类方法,并在公开数据集上验证了其有效性。

 

文献 [3] 和文献 [4] 利用支持向量机和贝叶斯等 方法,对支持向量机的参数进行优化,   提高了 异常检测的精度和准确度。文献 [5] 和文献 [6] 通过深度学习的方法提升了入侵检测的准确 性。Waskle 等人 提出了一种利用主成分分析 和随机森林分类算法来开发高效入侵检测系统 (Intrusion Detection System,IDS)  的 方 法。其 中,主成分分析(Principal Component Analysis,  PCA)将通过减少数据集的维数来帮助组织数 据集,可以获得更高的精度。Bassene 等人 设 计了基于图的物联网流分类方法(Group-based Internet of Things Classification,GBC-IoT),    能 够通过网络流分析识别连接的物联网设备,处理 开销更小,准确率更高。Kwon 等人 给出了基于深度神经网络(Deep Neural Network,DNN) 的网络数据自动分类的初步结果,验证了 DNN 对网络数据分类的潜在有效性。文献 [10] 和文 献 [11] 分别提出了基于稀疏自编码的随机森林 检 测 方 法 和 优 化 卷 积 神 经 网 络(Convolutional Neural Network,CNN) 和分层多尺度长短期记 忆网络(Long Short-Term Memory,LSTM) 统一 模型,提高了检测的准确率。

 

基于模型及方法的网络监测绝大部分有着 较高的准确率、召回率等分类评估结果,但仍 然存在着资源消耗过大、模型过拟合以及应用 场景单一等问题。如 Yin 等人提出的递归神 经网络模型会花费更长的训练时间,通过 GPU 加速才能得到降低;文献 [3] 和文献 [4] 需要大 量的迭代计算才能确定向量机的参数,同时这 些方法在针对不同场景时往往无法迁移,其对 数据的要求较高,可迁移性不强。

 

2.2基于特定应用场景的网络流监测研究

 

由于现有方法普遍对特定数据集和场景有 效,对于广泛网络流检测效果有限,所以针对特定场景、特定应用问题的相关研究也被提出。

 

有研究 针对物联网网络流进行分析,分别提出了新的基于深度学习模型的网络流分类(Network Traffic Classification,NTC)技术、合成少数类(Synthetic Minority Over Sampling Technique, SMOTE)技术以及进化神经网络(Evolutionary Neural  Networks,  ENN)的模型机制,在数据集上的测   试结果表明,检测的准确率和精确率得到了提升。有研究针对网络流分类的问题,分别提出了基于分组字节的两级结构卷积神经网络、评 估 审 查 技 术(Program Evaluation and ReviewTechnique,PERT)框架、基 于 网 络 仿 真 器 (Mininet)的简单网络拓扑仿真框架、基于虚 拟连接(Virtual Connection) 的智能系统原型、 深度学习模型以及二值分类的方法,在实际的 分类测试中对于相应的数据集均取得了较高的 准确率。Xu 等人 [19]  提出了一种基于混合深度 神经网络的低速拒绝式服务(Low-rate Denial of Service, LDoS)攻击检测方法。对实际数 据集的测试结果表明,该方法只需要统计网络 流的时间就能够有效检测出波动 HTTP 网络流 下的 LDoS 攻击。Raikar 实现了自动化的网 络资源管理,减少了人为对流量表征和分析的 干预。

 

针对不同应用场景,网络流监测的模型及 方法在实验仿真中都有较好的分类效果,但在 实际应用中仍然存在性能较低的情况。以上提 出的流量监测方法绝大部分是在实验室环境内 使用公共数据集进行测试和验证,对于在现实 场景中的表现还不清楚。例如,  Zhou 等人就 明确提出面对更加复杂的应用环境,需要在现 实场景中进行进一步的测试与调整。而且如 Yu 等人 所述,某些低频攻击在实际场景中可能 会产生更大的威胁,但是目前的大部分方法对 其的检测性能较差。

 

2.3基于学习方式的网络流监测研究

 

网络流精准检测往往依赖大量的先验知识, 这导致必须要有大量的标注数据才能达到满意  的识别效果,所以大量研究者将无监督、半监督、自监督等非完全监督式学习方法用于数据流监测。

 

文 献 [22]、文 献 [23] 和 文 献 [24] 各 自 提出了一种半监督方案,可以根据协议、应用程 序和攻击类型等角度对这些网络流进行检测及 分类。Yang 等人将改进的条件变分自动编码 器(Improved Conditional Variational AutoEncoder,  ICVAE)  与 DNN 相结合,  该方法在少数攻击和 未知攻击中也具有较高的检测率。文献 [26]、文 献 [27] 和文献 [28] 分别提出了基于卷积神经网 络的有效载荷分类方法和基于递归神经网络的 有效载荷分类方法、DeepMAL 模型以及无监督 学习聚类方法 BiGkmeans,无需特征方程以及专 家的手工制作,即可实现网络入侵检测。有研 究 分别采用了基于信息增益和多层感知器 神经网络的轻量级网络 IDS、基于相似度的模糊 熵 加 权 K 最 邻 近(K-Nearest Neighbor,KNN) 的网络流攻击检测方法、深度神经网络和关联 分析技术、深度并行网中网模型、深度聚类算 法与 BIRCH 聚类算法相结合、深度学习以及叠 加的深度神经网络,通过有监督学习方式对网 络流进行分类,提高网络入侵检测的准确性。

 

基于网络流分类研究了各种有监督、半监 督和无监督学习方式。在该过程中,需要对数 据集进行测试和验证,要求模型采用的数据集 尽可能完善,包含所有的攻击类型,这将直接 影响其分类效果。然而,目前还存在及时完善 的数据集难以获取的问题。在模型测试中,Li 等人、Yang 等人 、Hemalatha 等人 [34]  都采 用了多种数据集进行模型的训练和测试,Gao 等人采用比 KDD99 数据集更全面的 NSL-KDD 数据集进行测试。但同时,全面数据集的构建 往往需要大量的资源和高水平的专家知识,可能会导致资源消耗过多的情况。

 

从当前的研究内容和方法中可以得到,相 比于图像、语音、信号等数据,网络流的监测 往往需要对数据更高的理解程度;对数据的表 征性、泛化能力要求更好;对特定行为的刻画 能力要求更高,这也对设计一种新的网络流表 征与监测方法提出了更高的要求。

 

2.4  公开科学问题分析

 

网络流威胁检测是网络防御的重要内容,   而网络流的特征表征是完成网络流威胁检测的  基础性科学问题。分离度高、表征性强的特征  是网络行为检测分类的基础,  通过规则、模型、 方法、技术去弥补数据复杂性带来的不足所起   到的作用是十分有限的。对当前一些网络流   智能监测技术进行分析,可以看到这些方法在   特定数据集上已经有出色的表现,优化在原数   据流上进行分析的方法对任务带来的性能提升  比较有限。因此,本文考虑从频域、空频域的   变换域分析出发,构建流谱理论实现对网络流   的进一步表征,流谱理论将提供以下科学问题   的解决思路:(1)建立不同威胁行为的流特   征泛化模板,应对不同背景流量下威胁形式多   变性问题;(2)研究多场景应用中的表征矩   阵,  达到对网络流的本质性理解, 提升表征矩  阵的表达性、可解释性、可观测性;(3)构 建对训练数据依赖度低的网络流行为检测分类策略,减少对网络行为数据标注的数量及质量要求。

 

03

 

流谱理论提出

 

3.1流谱定义及变换域空间

 

在网络空间中,可观测的复杂网络流按照某种时域到某变换域的映射方法,形成的可分 离、可解释、可计算的特征表示集合,称为网 络流谱,简称流谱。行为谱是以网络空间中的 网络行为作为表征的流谱,以正常网络行为的 行为谱作为基线,可以区分出异常网络行为的 威胁谱。流谱空间的构建过程,考虑将原数据 域网络流映射到新的变换域上,从变换域进行 分析,找到更加本质性的网络空间行为分析谱,基于流谱理论刻画网络行为谱、威胁谱。

 

域,一 般指数域,设  是由一些复数组成的集合,  其中包括 0 与 1,  如果 中任意两 个数的和、差、积、商(除数不为 0) 仍是中的数,则称为一个数域。常见的数域包 括复数域、实数域、有理数域等。在数域的 基础上,扩展衍生出许多其他域,例如,描 述数学函数(物理信号) 对时间关系的时域、 描述二维图像的空间域以及描述信号随频率 变 化关系 的频 域等。本文 提出了面 向网 络流时域、空域、频域、空频域的流特征表达及分析过程,如图 1 所示。

 

 

图 1    流谱理论中的网络流分析域变换框架

 

网络流一般由不同数目的网络包组成,其 与信号、光、图像的表示都有一定的差异,在 这里,  定义网络流的原域空间为 , 其表示了网 络流最基本的表示形式,而流谱空间则是原始网络流的变换域空间,  用  表示。针对不同的网络威胁、攻击或行为,本文提到的流谱空间变 换可以分为一维时域变换、二维空域变换,其 分别针对网络流的一维时域输入 f (t) 以及二维 空域输入f (x, y), 那幺流谱空间的变换描述如 表 2 所示。

 

表 2  流谱空间变换描述

 

 

其中, f(t)是输入网络流时间特征矩阵(一  维矩阵,向量),  f (x,y)是输入网络流空域特征  矩 阵,  r (t,v)、 r (x,y,u,v) 为正变换核,  s (x,y,u,v)  为反变换核,  t 表示网络流特征的时间变化序列, v 表示变换域上的映射序列,  N表示离散时间序  列的数目上限。  T (u,v) 为f (x,y) 的正变换,  给定  T (u,v) 后, 可以用 T (u,v) 的反变换还原f (x, y)。

 

由此,就可以完成不同情况下的网络流原域空间向变换域空间的变换,如果有:

 

则变换过程是可分的,同时,如果有:

 

 

那幺变换过程就是对称的。

 

3.2 网络流特征矩阵

 

在对网络流进行流数据清洗、网络流切片 等数据预处理后,对于不同攻击技术,分析各 种攻击技术特征,可以构建其特征矩阵。下面 完成了对网络威胁特征矩阵 F 的构建。

 

(1)攻击战术矩阵 a :首先,对网络威胁 进行攻击战术划分,构建攻击战术行向量。将 涉及的攻击战术置 1,不涉及的置 0,可以得到攻击战术行向量为 a。

 

(2)攻击技术矩阵 t:其次,进行攻击技 术关联,构建攻击技术矩阵。对照攻击战术与 攻击技术表,将涉及技术置 1,不涉及的置 0, 即可得到攻击技术矩阵为t。

 

(3) 网络流特征矩阵 s: 通过分析数据集  的报文, 可以提取网络流数据的五元组、包大小、 包持续时间,然后进行流数据清洗,去除无关   数的数据,并对不同网络包重复上述过程构成   包序列特征集合,最后,经过特征提取和排列得到网络流特征矩阵。将网络流包按时间划分 为 n 个阶段,其中 n 即为矩阵的 t 列数,通过观 察包头元素熵变情况等方法,提取每个阶段的 网络流包组的原子攻击行为,得到网络威胁的 流特征矩阵 s。

 

最终,结合得到的攻击战术行向量 α、战术 关联的攻击技术矩阵 t 和网络流特征矩阵 s ,通 过网络威胁表征矩阵的计算公式创建最后的目标矩阵,计算过程为:

 

 

上述求解过程中,  a ·t 代表网络威胁的隶属 关系,  s 代表网络威胁的流特征,  F 代表对威胁 攻击的表征。将网络威胁的攻击战术与攻击技 术进行关联,从可拓展的攻击技术池中提取攻 击战术对应的攻击技术,构建有映射关系的攻 击技术矩阵。通过提取的网络攻击流特征,可 以使每种攻击技术映射到相应的技术特征,构 建技术特征矩阵。通过 3 个矩阵的构建,可以 完整地表征出网络威胁的攻击战术,以及每种 攻击战术所对应的攻击技术,每种攻击技术所 产生的特征表现。最终得到的网络威胁表征矩 阵反映了该攻击对于网络流特征的影响,作为 区分该攻击与其他网络威胁的依据。

 

3.3流谱变换

 

首先,对流谱变换的过程进行介绍。假设 在原数据空间中,一个网络流特征向量表示为 Xe ,在当前空间域下进行空间变换(平移、翻转 或其他复杂操作)映射到新的空间上,在新的 空间上,其被表示为 Xe’ ,那幺从原空间上的表 示 Xe  映射到新的空间上的表示Xe’  的过程就称为 基变换。假设变换空间上基向量 e’ 使用原域二维空间中的基向量 e 可以表示为:

 

 

则可以通过基向量的映射关系,求得:

 

 

那幺这个变换过程就可以用上式中的矩阵 表示,其包含了由原向量空间向变换域空间映 射的过程,  可以称为原域到变换域的变换矩阵。 也就是说,对于二维空间中的一种变换过程,  可以通过矩阵表示出来,实质上是两个基向量 的系数组成的矩阵,可以称为系数矩阵或表征 矩阵。

 

同理,将基于基向量的变换映射到基于矩 阵的变换上,就可以找到矩阵的变换基。其变 换的目的是:改变原数据的表现形式,原数据 并没有发生改变。针对矩阵的变换域空间,可 以从线性映射变换给出定义。假设有 M个 N 维 向量,将其变换为由 R 个 N 维向量表示的新空 间(空间变换域)中,则可以将原空间向量表 示为一个矩阵 F,而新空间的变换核表示为:

 

 

其中, pi 是一个行向量,  表示新的变换域空  间上的第 i 个基向量,  qj是组成原矩阵的列向量, 那幺就可以实现式(8)描述的映射关系,这样  矩阵 F 就完成了从一个变换域映射到新的空间的过程:

 

 

由于其变换过程中的算子为相乘,完成了   矩阵的基本线性映射,也就是说,对于一个原  域空间上的矩阵, 都可以看作由 n 个列向量组成, 那幺对矩阵的变换映射实际上就是对每一个列  向量做新的空间  上的基变换映射,任意一个  网络流(表征为矩阵形式)都可以被表征到另 一个空间中,而对于更复杂的情况,定义一个新的算子    ,对于网络流矩阵:

 

 

其中,  F 表示原始网络流特征矩阵,  Score 表 示新的空间 S 上的一组基,  S 就是矩阵在变换域 上的系数矩阵,通过系数矩阵可以对原域空间 上的行为进行表达。

 

在现有网络流监测研究工作中,涉及变换 域的绝大多数为时域变换,应用卷积神经网络 对网络流进行监测时,多基于二维时域变换,  采用二维卷积核来提取特征。文献 [20] 将多个 卷积池模块与具有字节友好大小的多个过滤器 进行级联,形成两层架构:第一层堆叠多个卷 积池模块,以从每个分组的字节中提取特征;  第二层使用一层二维卷积滤波器将在包数的维数上执行卷积操作的滑动,提取包级的特征。 文献 [26] 提出了一种基于卷积神经网络的有效 载荷分类方法,其结构中包含 3 个卷积层:第 一卷积层从原始数据中提取底层特征;第二卷 积层从低级特征中提取高级特征,其卷积核大 小逐渐减小;第三卷积层重新调整卷积核尺寸 后提取更精细的特征。由此可见,每个卷积层 都包含不同维数大小的二维卷积核,从单个角 度提取特征。

 

04

 

面向流谱变换的指标评估体系

 

针 对 流 谱 构 建过 程 中 的 变 换 映 射 过 程,  需 要构建 一个合理 有效 的评 估体 系,完 成流 谱 空间同 构过 程的 可靠 性判 断,以 提高 流谱 对网络流的表征性,并提升检测的准确率,降 低冗余 度。 本 节将对流 谱理 论指 标评 估体 系 进行讨 论,主 要从可分 离性 和表 征性 两个方面展开。

 

(1)可分离性:可分离性描述了在一个拓 扑空间里,任意的点、子集等彼此之间能被不 相交的开集分开的程度。在流谱理论中,主要 讨论基底表征矩阵的可分离性,可以分为面向 数据和面向结果的可分离性问题。

 

①面向数据的可分离性:针对数据的可分 离性,高维数据通过数据压缩后映射到低维子 空间,此时针对低维数据进行可分离性的分析 更直观。可分离性可以从两种分布来考虑:一 是同类特征空间压缩类内间距尽可能小;二是 不同类特征空间拉伸类间空间尽可能大。为了 度量这种特征占据空间的大小,可以采用编码 长度公式来进行测量。常见的编码长度测量方法如表 3 所示,其中,  A 和 B 为两点,其坐标为A( x1,y1 ), B( x2,y2 )。

 

表 3  常见编码长度测量方法

 

 

②面向结果的可分离性:面向结果的可分 离性是指将基底矩阵数据送入单层感知机、循 环网络等可分类网络中,依据精确率、准确度 等度量指标直接从分类结果上判断数据是否存在可分性,常见的分类度量指标如表 4 所示。

 

表 4  常见分类度量指标

 

 

其中,  TP 表示被正确分类的正例的数量, FP 表示负例被错分为正例的数量,  FN表示正例 被错分为负例的数量,  TN 表示被正确分类的负 例的数量。

 

精确率是针对预测到的向量化的特征而言 的,指在所有被预测为正的样本中实际为正的 样本概率。召回率是针对原始数据而言,在实际的特征提取并向量化后,得到的结果与预测所能向量化的结果的概率。准确率是指对于给 定的测试数据集,分类器正确分类的样本数与 总样本数之比,代表分类器对整个样本判断正 确的比重。  F1 分数是精确率和召回率的调和平 均数,综合对精确率、召回率进行评估。

 

精确率、召回率和准确率是机器学习、深度 学习研究领域中最为常用的评估指标。Anish 等 人 [4] 对比了入侵检测系统采用不同分类方法下 的检测性能,  选取准确率作为评估指标,  对比分 析后发现支持向量机(Support Vector Machines, SVM) 算法相比朴素贝叶斯算法对于恶意网络流 的分离度更好。Bendiab 等人 提出了一种新的 物联网恶意软件流分析方法,选取精确率、召 回率和准确率进行评估,证明了其检测恶意软 件流的有效性。

 

在流谱理论中,基底矩阵的分离结果将直 接影响空域上对于网络流行为的表征。从分离 结果来看,可以将基底矩阵送入分类模型中,  根据精确率、召回率、准确率、  F1  分数等分类 度量指标评估可分离性。

 

(2)表征性:表征性是指在将原始数据转 换成应用数据的过程中,应用数据更容易被有 效分析利用的程度。

 

流谱理论旨在将网络空间“流”从“时域” 映射到“频域”,将不同类型的业务行为固化 成“谱”,然后在流谱空间上对网络空间流进   行有效直接的观测、分析,从而对所有行为进   行归类表达, 凸显异常行为, 把握整体安全态势。 在这个转换映射过程中,流谱空间信息流的表   征性将直接影响业务行为归类的准确性,  由此,需要综合评估流谱空间信息流能够被理解、能够使用可认知方法进行解释呈现的程度,可解释性越高,表征性也就越高。

 

机器学习算法可以看成是一个黑盒子模型, 训练数据流入黑盒子, 训练出一个函数(模型), 输入新的数据到该函数得出预测结果。关于模  型的可解释性,可以通过一些与模型无关的可  解释模型,对原本的黑盒模型进行解释,并生  成度量值作为度量空间的组成部分。常用的评估方法如表 5 所示。

 

表 5  常见可解释评估方法

 

 

a (i )为样本 i 到同簇其他样本的平均距离, b (i )为样本 i 到其他某簇的所有样本的平均距 离,   Jcv (θ) 为高偏差时交叉验证集代价函数, Jtrain(θ)为测试集代价函数,  M是针对树模型分析中树的数量。

 

05

 

流谱理论在对抗防御中的可行性验证

 

本 节 在 网 络 威胁 数 据 集 上,   对 流 谱 理 论 在面向针对性威胁的对抗防御场景中的应用 可行性进行验证。 实验中,选取了包含不同攻击类别的网络流数据集进行流谱映射实验。

 

通过应用可行性分析证明利用流谱理论构建  网 络对抗 防御 体系 的有 效性。  使用 的数 据集  中包含了普通的和常见恶意网络流,以 PCAP  包的形式存储,实现的攻击包括暴力 FTP、   暴力 SSH、DoS、Heartbleed、Web 攻击、渗透、 僵尸网络和 DDoS。每个样本数据包含 80 多  个特征。

 

从优化目标出发,在划分的训练集上显式 构建多层映射网络,正向构建可解释模型并将 原始特征映射到新的变换空间,完成 500 次迭 代过程。

 

在多层映射网络模型构建完成后,将特征 矩阵同构到新的变换空间中,其数据的分离性得到了明显的提升,如图 2 所示。

 

 

图 2    流谱热力图

 

在原始网络流热力图中,不同类别的流之 间存在不同程度的相似度,在经过流谱的同构  映射后,不同类别网络流间的相似度被削弱,在图 2 中表现为只剩下对角线上的网络流(同   类间)存在相似性。模型在已优化目标的指导下, 通过增大不同类别数据间的间距、减小相同类  别数据距离等方式将网络流映射到一个特征相  对独立的子空间中,在这个映射空间中不同类  别的流以很低的相似度独立。本节实验也是流  谱理论在原始流特征数据上的最基本变换映射分析,其在网络流行为分析任务中具备一定可  行性,后续将继续研究其在频域、空频域上的变换,  并对其可行性进行讨论,主要目标包括:

 

(1)在时域上完成网络流特征提取,得到网络流特征向量或矩阵;(2)完成特征矩阵的空域映射,并找到一组空域变换基底矩阵,对基底的表征性进行评估并分析正交性及完备性;(3)对时域到频域上的一维变换、空域到空频域上   的二维变换理论进行研究,分析傅里叶变换、拉普拉斯变换、小波变换等基本变换的特点以 及其在流谱空间上的有效性;(4)从群、环、域出发,分析流谱理论变换空间的基本性质。

 

06

 

结语

 

面对复杂的网络环境,流谱理论旨在建立 全新的防御视角,  发展类平行空间的视角维度,  实现对网络空间威胁的全流程智能监测。 首先,基于攻击类型将网络威胁进行分类,将产生的特征通过构建矩阵的方法联系起来,产生映射  关系。其次,  从原子攻击行为、文本内容特征、   网络流统计特征和协议连接特征等多个角度入  手,  提取表征网络威胁攻击技术的复合指标,  并构建网络威胁攻击技术矩阵。由此,在网络威  胁分类的基础上,任意攻击可以被表示为攻击  战术行向量、攻击技术矩阵和流特征矩阵的组合,通过流谱理论的矩阵计算,得到网络威胁  表征矩阵的表征结果,实现对网络威胁的可视  化表征。最后, 在完成网络流行为表征的基础上, 对网络流进行时域、空域、频域及空频域的变  换映射,将流映射到流谱空间中,以达到更好  的表征性,  并对目标威胁、攻击进行模板刻画,达到对抗防御中不同场景的监测要求。

 

未来工作主要有:  (1)针对未知协议,构 建面向未知协议的流谱特征关联分析体系,提 升流谱理论在现实对抗环境下对未知协议的分 析效果。(2) 针对传输层安全性协议(Transport Layer Security,  TLS)、安全套接字协议(Secure Sockets Layer,SSL)  等复杂的特定威胁,   开展 流谱实例应用研究,构建威胁检测模板,刻画 特定威胁的特征重要性、威胁族谱、特征热力。 (3)搭建流谱理论验证平台,针对网络空间防 御的典型场景,对比传统分类模型,使用流谱 模型理论及其应用模型进行攻击检测与异常发 现的网络流分类处理。

 

引用本文:   郭世泽 , 王小娟 , 何明枢 , 等 . 网络空间对抗防御中的智能监测技术研究 [J]. 信息安全与通信保密 ,2021(11):79-94.

 

作者简介 >>>

 

郭世泽 , 男, 博士, 教授,主要研究方向为网络空间安全;

 

王小娟 , 女, 博士, 副教授,主要研究方向为计算机网络安全。

 

何明枢  ,   男,  博 士,   主 要 研 究 方向为物联网安全、数据安全;

 

任传伦  ,   男,  博 士,  研 究 员, 主要研究方向为网络安全;

 

俞赛赛,   男, 博士,  高级工程师, 主要研究方向为网络安全。

 

选自《信息安全与通信保密》2021年第11期

 

文章来源:信息安全与通信保密杂志社

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注