:raising_hand|type_1_2:♀️ 编者按:本文作者是蚂蚁集团前端工程师十吾、阿里巴巴达摩院图计算工程师泽东,介绍了 GraphInsight 在网络安全分析场景下的应用与实践,欢迎查阅~
引言
GraphInsight 是蚂蚁集团 AntV 团队免费开放的图可视化分析应用搭建平台,底层是开源的图可视分析引擎 AntV G6,本文介绍 GraphInsight 在 ChinaVis 2022 可视化挑战赛中,用图计算技术在网络安全分析场景下的应用与实践。
背景
ChinaVis 作为中国的可视化盛会,在 2022 年的挑战赛中公布了一道图计算相关分析网络黑灰资产的赛题 ,其中网络黑灰产是指利用信息技术和网络技术,实施各类违法犯罪活动来谋取不正当利益的产业形态,例如网络诈骗、网络赌博、网络色情、违禁品交易等。在该场景下,GraphInsight 团队使用图计算技术,为其设计并实现了一套图可视化分析方案,挖掘潜在的黑灰资产,取得了不错的效果。接下来,我们将详细介绍其中的技术与分析思路。
GraphInsight 官网:https://graphinsight.antgroup.com/
AntV G6 官网:https://g6.antv.vision/zh
AntV G6 GitHub 地址:https://github.com/antvis/G6
技术架构
GraphInsight: 负责提供图应用快速搭建的能力,搭建基础的黑灰产分析应用。例如,GraphInsight 允许我们针对该场景自定义设计开发分析任务,如数据总览、节点重要性、社区发现、路径分析、模式匹配等。
GraphScope: 负责解决该场景下,大规模图数据的存储、查询、计算问题。在探索过程中,GraphInsight 随时可以通过调用 GraphScope 的服务,进行大规模图数据的计算。
分析思路和分析工具
整体分析思路为:
前置处理:图建模、统计与特征分析;
GraphInsight:从点到线到面的交互式图可视分析,包括: 关系扩散 – 种子节点启发 – 节点社区分析 – 路径分析 (链路识别) – 模式匹配 (子图挖掘) – 图推理演化(自然人网络);
GraphScope:上述所有分析算法均可在前端画布数据上探索实践,确认有用后,发起 GraphScope 大规模计算 ,在返回结果数据上继续分析。
事实上,该图分析思路在各个领域均可通用。针对黑灰产分析场景,各环节有特殊业务语义与业务规则作为分析条件。各环节拆解如下:
图建模
图模型 (Schema) 是对数据的抽象定义,帮助我们理解、管理、查询数据。该场景下的实体类型有域名 Domain、IP 地址、证书 Cert 等,关系类型有跳转、子域名、关联证书等。针对不同的实体/关系类型,可在图模型上进行视觉通道与数据类型的映射配置。在分析阶段展示的数据将依据模型样式配置进行展示。
数据处理与存储
开源图计算引擎 GraphScope 提供了大规模图计算能力、gremlin 图查询能力。我们将比赛数据按图模型存储。图分析过程中,将使用 GraphScope 开源的 gremlin 客户端查询数据到前端进行图可视分析,并在必要时使用 GraphScope 图计算能力进行大规模计算。
统计与特征分析
在进入图分析之前,我们对整体数据情况较陌生。通过全量数据的统计与特征分析,将结果通过统计图表的方式呈现,可辅助得到数据整体概览,并从中找到切入点。
通过上面的统计图表,我们可轻易地发现度数大的、关联域名多的、涉赌多的、非法交易平台数量多的、重要性指标高的等统计信息突出的节点。统计图表中的柱子、散点等元素,可以统计图中异常突出的数据为起点,进行后续的数据分析。
图可视分析
关系扩散
根据题干线索节点,以及上述数据总览面板中发现的异常节点作为起点,进行一跳/多跳的关系扩散,从而逐步得到一份与线索种子节点相关的子图。针对该场景,扩散具有一定业务规则,例如根据边的强弱,决定是否继续展开。
种子节点启发
使用 PageRank、度中心性、边关联性等算法计算节点重要性,辅助分析师发现风险种子节点。
社区分析
节点聚类往往说明了风险域名、注册人等形成子网络的社群信息,可用于团伙、核心网络资产及其辐射资产的识别。如使用 k-core 算法计发现k 核心的子图,或使用 Louvain 等发现紧密聚类,如下图聚类间存在个别桥接节点,值得关注。
路径分析
上文方法找到了核心资产节点、资产节点聚类间关系后,使用路径分析可以快速启发核心资产间的链路。下图中,我们找到了两个核心资产之间的链路,从路径上继续扩散挖掘更多信息。
模式匹配
模式匹配可用于识别黑灰产的运作模式、团伙结构等。模式匹配的关键在于,风险图模式强依赖专家经验。面对新场景、新数据,专家也需要升级经验。在图可视分析中设计交互式的模式定义、探索、验证,可高效辅助用户总结经验模式。如下图所示,为根据左侧面板中自定义的模式,最终的匹配效果。
分析案例
下面我们来看,如何利用上述思路与工具,来解决网络黑灰资产的挖掘问题,在该问题中,我们的目标是分析出网络黑灰资产间的链路。
首先, 通过数据总览,发现下图(A)中,大多数注册人相关域名以涉赌、涉黄为主,其中代表名为“李xxxxx友”的注册人的紫色柱子相对突出,表明他注册了大量非法交易平台域名,随后通过 gremlin 对“李xxxxx友”节点进行一跳扩散查询,发现其注册的域名中仅少量域名无风险标记(C图浅橙色)。
其次,在上图(C)基础上继续扩散,得到下图,其中“李xxxxx友”暂记 a。此例中,我们使用节点重要性分析来发现更多种子节点。最终发现多个关联大量风险域名的 IP、证书,如红框圈出的 b、c、d 点。
为了进一步发现种子节点的社区结构信息,我们使用 k-core 社区发现等算法,最终发现了 2 个紧密核心结构,如下图。观察图发现这些核心 IP 基本属于一个 ASN。
与此同时,借助 GraphScope 引擎的能力,我们将 k-core 的计算结果作为一列新的属性加回原图中,后续该字段将作为 gremlin 的查询过滤条件,筛选出如下图(B)。
最后,使用路径分析工具,查询多个核心节点之间的链路,找出节点间的关联性,最终高亮黑灰资产间的链路如下。
结语
针对 ChinaVis 2022 可视化挑战赛中的问题,本文首先介绍了 GraphInsight 背后实践的解体思路与使用到的分析工具,其次给出了该案例场景下的分析过程。可以看到,融合了 GraphInsight 与 GraphScope 的图计算能力,用户可以在海量图数据中轻松挖掘潜在的重要信息,为进一步的决策提供了更多的可能。真诚的欢迎大家试用,并反馈任何问题。
Be First to Comment