Press "Enter" to skip to content

GraphInsight 网络安全分析实践

:raising_hand|type_1_2:‍♀️ 编者按:本文作者是蚂蚁集团前端工程师十吾、阿里巴巴达摩院图计算工程师泽东,介绍了 GraphInsight 在网络安全分析场景下的应用与实践,欢迎查阅~

 

 

引言

 

GraphInsight 是蚂蚁集团 AntV 团队免费开放的图可视化分析应用搭建平台,底层是开源的图可视分析引擎  AntV G6,本文介绍 GraphInsight 在 ChinaVis 2022 可视化挑战赛中,用图计算技术在网络安全分析场景下的应用与实践。

 

背景

 

ChinaVis 作为中国的可视化盛会,在 2022 年的挑战赛中公布了一道图计算相关分析网络黑灰资产的赛题 ,其中网络黑灰产是指利用信息技术和网络技术,实施各类违法犯罪活动来谋取不正当利益的产业形态,例如网络诈骗、网络赌博、网络色情、违禁品交易等。在该场景下,GraphInsight 团队使用图计算技术,为其设计并实现了一套图可视化分析方案,挖掘潜在的黑灰资产,取得了不错的效果。接下来,我们将详细介绍其中的技术与分析思路。

 

GraphInsight 官网:https://graphinsight.antgroup.com/

 

AntV G6 官网:https://g6.antv.vision/zh

 

AntV G6 GitHub 地址:https://github.com/antvis/G6

 

技术架构

 

GraphInsight: 负责提供图应用快速搭建的能力,搭建基础的黑灰产分析应用。例如,GraphInsight  允许我们针对该场景自定义设计开发分析任务,如数据总览、节点重要性、社区发现、路径分析、模式匹配等。

 

GraphScope: 负责解决该场景下,大规模图数据的存储、查询、计算问题。在探索过程中,GraphInsight 随时可以通过调用 GraphScope 的服务,进行大规模图数据的计算。

 

 

分析思路和分析工具

 

整体分析思路为:

 

前置处理:图建模、统计与特征分析;

 

GraphInsight:从点到线到面的交互式图可视分析,包括: 关系扩散 – 种子节点启发 – 节点社区分析 – 路径分析 (链路识别) – 模式匹配 (子图挖掘) – 图推理演化(自然人网络);

 

GraphScope:上述所有分析算法均可在前端画布数据上探索实践,确认有用后,发起 GraphScope 大规模计算 ,在返回结果数据上继续分析。

 

事实上,该图分析思路在各个领域均可通用。针对黑灰产分析场景,各环节有特殊业务语义与业务规则作为分析条件。各环节拆解如下:

 

图建模

 

图模型 (Schema) 是对数据的抽象定义,帮助我们理解、管理、查询数据。该场景下的实体类型有域名 Domain、IP 地址、证书 Cert 等,关系类型有跳转、子域名、关联证书等。针对不同的实体/关系类型,可在图模型上进行视觉通道与数据类型的映射配置。在分析阶段展示的数据将依据模型样式配置进行展示。

 

数据处理与存储

 

开源图计算引擎 GraphScope 提供了大规模图计算能力、gremlin 图查询能力。我们将比赛数据按图模型存储。图分析过程中,将使用 GraphScope 开源的 gremlin 客户端查询数据到前端进行图可视分析,并在必要时使用 GraphScope 图计算能力进行大规模计算。

 

统计与特征分析

 

在进入图分析之前,我们对整体数据情况较陌生。通过全量数据的统计与特征分析,将结果通过统计图表的方式呈现,可辅助得到数据整体概览,并从中找到切入点。

 

通过上面的统计图表,我们可轻易地发现度数大的、关联域名多的、涉赌多的、非法交易平台数量多的、重要性指标高的等统计信息突出的节点。统计图表中的柱子、散点等元素,可以统计图中异常突出的数据为起点,进行后续的数据分析。

 

图可视分析

 

关系扩散

 

根据题干线索节点,以及上述数据总览面板中发现的异常节点作为起点,进行一跳/多跳的关系扩散,从而逐步得到一份与线索种子节点相关的子图。针对该场景,扩散具有一定业务规则,例如根据边的强弱,决定是否继续展开。

 

种子节点启发

 

使用 PageRank、度中心性、边关联性等算法计算节点重要性,辅助分析师发现风险种子节点。

 

社区分析

 

节点聚类往往说明了风险域名、注册人等形成子网络的社群信息,可用于团伙、核心网络资产及其辐射资产的识别。如使用 k-core  算法计发现k 核心的子图,或使用 Louvain 等发现紧密聚类,如下图聚类间存在个别桥接节点,值得关注。

 

路径分析

 

上文方法找到了核心资产节点、资产节点聚类间关系后,使用路径分析可以快速启发核心资产间的链路。下图中,我们找到了两个核心资产之间的链路,从路径上继续扩散挖掘更多信息。

 

模式匹配

 

模式匹配可用于识别黑灰产的运作模式、团伙结构等。模式匹配的关键在于,风险图模式强依赖专家经验。面对新场景、新数据,专家也需要升级经验。在图可视分析中设计交互式的模式定义、探索、验证,可高效辅助用户总结经验模式。如下图所示,为根据左侧面板中自定义的模式,最终的匹配效果。

 

分析案例

 

下面我们来看,如何利用上述思路与工具,来解决网络黑灰资产的挖掘问题,在该问题中,我们的目标是分析出网络黑灰资产间的链路。

 

首先, 通过数据总览,发现下图(A)中,大多数注册人相关域名以涉赌、涉黄为主,其中代表名为“李xxxxx友”的注册人的紫色柱子相对突出,表明他注册了大量非法交易平台域名,随后通过 gremlin 对“李xxxxx友”节点进行一跳扩散查询,发现其注册的域名中仅少量域名无风险标记(C图浅橙色)。

 

其次,在上图(C)基础上继续扩散,得到下图,其中“李xxxxx友”暂记 a。此例中,我们使用节点重要性分析来发现更多种子节点。最终发现多个关联大量风险域名的 IP、证书,如红框圈出的 b、c、d 点。

 

为了进一步发现种子节点的社区结构信息,我们使用 k-core 社区发现等算法,最终发现了 2 个紧密核心结构,如下图。观察图发现这些核心 IP 基本属于一个 ASN。

 

与此同时,借助 GraphScope 引擎的能力,我们将 k-core 的计算结果作为一列新的属性加回原图中,后续该字段将作为 gremlin 的查询过滤条件,筛选出如下图(B)。

 

最后,使用路径分析工具,查询多个核心节点之间的链路,找出节点间的关联性,最终高亮黑灰资产间的链路如下。

 

结语

 

针对 ChinaVis 2022 可视化挑战赛中的问题,本文首先介绍了 GraphInsight 背后实践的解体思路与使用到的分析工具,其次给出了该案例场景下的分析过程。可以看到,融合了 GraphInsight 与 GraphScope 的图计算能力,用户可以在海量图数据中轻松挖掘潜在的重要信息,为进一步的决策提供了更多的可能。真诚的欢迎大家试用,并反馈任何问题。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注