Press "Enter" to skip to content

58信息安全-图神经网络在业务反欺诈中的应用实践

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

导读

 

近年来,中国互联网经济产业飞速发展,互联网服务也逐渐渗透到国民经济和社会生活的方方面面,互联网平台用户群体和市场规模急剧增长,滋生了巨大的黑色产业利益链,黑产团伙开始从“攻击渗透系统获利”进化到利用“业务风控缺失进行大规模牟利”的模式,并且开始呈现规模化、产业化、专业化的趋势,互联网业务安全面临严峻的挑战。

 

导语

 

58同城作为国内最大的生活信息服务平台,以“让生活简单美好”为使命,为广大市民提供分类信息服务,同时也为商家提供全方位的市场营销解决方案。为了保障集团核心业务安全,安全团队做了很多开创性的工作,设计和研发了安全平台和反欺诈体系。

 

我们首先分析黑产欺诈行为的特点,总结反欺诈体系中的主流应对方法及其适用的场景,梳理在信息服务场景下的典型欺诈方式,提出应用图神经网络的方法,捕获黑产用户在设备聚集性、内容相似性、行为协同性方面深层次的鲁棒性特征,鉴别用户是否有欺诈风险。设计对比实验表明,该方法具有识别精准度高、鲁棒性强、训练效率高等特点,为保障业务安全和构建反欺诈体系提供了一种切实可行的技术路线。

 

黑产反欺诈现状分析

 

作为风控行业的从业者,只有对黑产常见的欺诈行为方式和攻击手段有深入理解,才能在更深刻的理解业务风险以及当前反欺诈体系的薄弱环节。本节主要从业务安全的视角系统梳理了黑产欺诈行为的特点,总结与黑产斗争过程中的经验与教训。

 

2.1.黑产反欺诈现状分析

 

互联网黑产欺诈行为纷繁复杂,而且善于隐藏踪迹,我们通过对大量数据进行总结分析,黑产欺诈行为主要有以下3个典型特点:

 

聚集性 据《2019中国数字金融反欺诈全景报告》指出,黑产市场规模已达千亿级别,相关从业人员超过200万人,黑产已经从单打独斗发展成了有组织、有分工的团伙经营模式。黑产团伙在实施欺诈行为的过程中,在多个维度都表现出显着的聚集性,比如说共用相同的硬件设备资源,降低攻击成本。

 

专业性 黑产从业者拥有大量的硬件资源,如身份证、银行卡、手机号、IP池等,并且也具有非常高的技术水平,擅长各种自动化脚本编写、外挂制作、逆向反编译破解等技术手段,具有显着的专业性特征。2017年,“快啊答题”打码平台使用vgg16卷积神经网络模型,搭建了一套验证码自动识别平台,累积破解验证码1200亿次。

 

对抗性 黑产欺诈问题难以解决的根源来自于对抗性,实际工作中我们经常会遇到以下情况:针对专项问题治理的模型或策略刚上线,拦截性能突出,线上问题迅速得到控制,随着时间推移,黑产通过改机工具、IP代理、文本变形等方式掩盖其行为轨迹、改变行为模式,模型主键失效,线上问题死灰复燃,然后工作人员又步入问题样本收集、Bad Case分析、样本标注、模型迭代、线上问题评估的怪圈。与黑产对抗的过程,本质上是成本的对抗,然而由于线上欺诈样本的稀疏性、长尾分布等特点,样本收集、标注成本居高不下,互联网反欺诈体系需要寻求新的方向、新的思路来解决对抗性问题。

 

2.2.黑产反欺诈方法

 

反欺诈的方法多种多样,当前互联网反欺诈体系中常用的方法有信誉库、专家规则、机器学习、关系网络等。

 

信用名单库 信用名单库即传统的黑、白名单,通过内部经验积累、外部信用认证等方式获取的身份证、手机号、设备指纹、IP等黑、白名单对欺诈行为进行判断,是一种实施简单、成本较低的反欺诈手段。然而信用名单库存在准确度低、覆盖面窄的缺陷和不足,可作为互联网反欺诈的第一道防线。

 

专家规则 专家规则的优势在于实现较为简单、可解释性强,但缺陷在于专家规则存在有严重的滞后性,对于新出现的欺诈手段和方法无法及时的进行应对,往往需要着付出大量损失后才能总结教训提取新的规则。此外,由于人脑的限制,专家规则只能使用一个或几个维度的标量进行计算和识别,往往存在有较大的误报率。专家规则严重依赖于策略人员的经验和教训,不同水平的策略人员制定的专家规则效果也会纯在较大区别,主要可以作为互联网反欺诈的应急响应手段和兜底防线。

机器学习

基于机器学习的风控方法主要是通过深度挖掘用户设备类、行为类、内容类数据,对历史欺诈行为进行归纳、分析,提炼出欺诈行为模式,建立特征到业务标签的映射,由模型代替专家规则做出决策和判定,识别黑产欺诈行为,实现实时或事后的风险管控。

数据和特征决定了模型的上限,受限于样本标注成本、黑样本和噪声点区分难度、黑产行为对抗性等因素,机器学习算法虽然已经在风控反欺诈领域大放异彩,但也存在应用成本高、泛化性不足等问题。

关系网络

关系网络是一种基于图的数据结构,提供了从“关系”角度分析问题的能力,也被广泛应用于反欺诈领域。通过用户注册、登录、认证、发帖、交易等环节收集到的账户、设备、行为数据,构建用户间的关系网络,应用社区发现或标签传播算法,结合先验知识和专家经验,识别出紧密关联的社区结构或潜在的欺诈用户。

基于关系网络的反欺诈方法考量了节点之间的邻接拓扑关系,主要以节点度中心性(Degree Centrality)、接近中心性(Closeness Centrality)、中介中心性(Between Centrality)、社区规模等特征判断是否有欺诈风险,缺乏对节点属性、标签信息的深度挖掘。

 

基于图神经网络的反欺诈技术方案

 

在信息服务场景下,信息安全部门融合大数据+机器学习/关联网络的反欺诈体系已经取得了长足的进步,在识别精度、检测广度、响应速度等多方面都得到了大幅度的提升;然而线上垃圾注册、灌水引流等典型欺诈问题仍如附骨之疽一般,难以根治。
垃圾注册:在用户注册环节中,使用假冒、仿冒或盗用身份信息,如虚假号码、通信小号、临时邮箱、虚假邮箱注册,或者使用脚本、注册机进行批量注册的行为。垃圾注册行为直接威胁互联网平台账号安全,也给平台带来了非法买卖账号、恶意营销诈骗等违规风险。
灌水引流:在信息发布环节,黑产使用自动化工具,操纵多个平台账号,批量发布同质信息内容,以此达到提高曝光量、恶意引流的目的。灌水引流行为直接侵害了58生活服务平台的内容安全红线,影响了广大用户的使用体验。
考虑到信息发布场景中存在大量的文本、图像、行为、设备等多模态数据,每个模态的数据中都包含大量的信息,且不同模态数据之间存在一定的关联性,融合不同模态数据的特征集,联合学习各模态数据潜在的共享信息,有助于解决单一利用单模态数据存在的信息不完整性问题。
为了应对黑产欺诈行为的对抗性,我们从关联关系的角度入手,融合设备、行为、文本等多模态的数据,从设备相关性、行为协同性、内容相似性方面刻画黑产欺诈行为背后的鲁棒性特征,构建以用户为节点的关系图谱,结合图神经网络算法学习用户的表征向量,在少量标签信息监督的情况下,鉴别用户是否有欺诈风险。我们设计的反欺诈技术方案如图1

 

图1:反欺诈技术方案

 

3.1.关系构图

 

设备聚集性 如果用户A和用户B出现共用手机号、设备指纹、身份证等设备资源,则认为用户A和用户B具有设备聚集性,则连接用户A与用户B。用户相关性示意图如下所示:

 

图2:设备相关性示意图

 

其中手机号、设备指纹、身份证、IP地址等设备信息可以直接从系统日志中提取,微信号可以从用户的发布信息中基于正则的方式提取。

不同类型的设备表征的信息量不同,建立关系的权重也不同。例如:对比于手机号,身份证认证的环节更苛刻,因为同一个人可以拥有多个手机号,所以权重更高;同样手机号会比微信号的权重更高,因为获取方式不同,微信号主要从发布信息中基于正则的方式提取,提取过程中可能会增加噪音。

系统日志中有大量的IP地址信息,然而IP地址具有非常大的不确定性。我们借鉴信息检索中BM25的思想,设定IP地址的权重。把每个用户看做一个文档,把IP地址看做一个单词,这样两个用户通过IP地址建立的相似性就类比于查询

Q
Q与文档
d
d的相似性。

上式中W
i表示
qi的权重,计算公式类似于逆文档频率的计算,
n(qi)表示跟IP地址
qi直接相关的用户的数量,
fi表示在一定时间窗口内IP地址
qi跟用户

d关联的次数。

通过IP地址计算出来的两个用户之间的相似性,需要进行归一化处理,与其他关系建立的相似性关系统一量纲,计算公式如下所示:

 

 

内容相似性 只通过设备相关性构建的用户关系图谱,具有显着的无标度网络性质,即各节点拥有的连接数服从幂律分布,大多数普通节点具有少量的连接,少数节点拥有大量的连接,通过加入内容相似性的弱关系,可以有效缓解用户关系图谱稀疏性的问题 ,在半监督的图神经网络学习过程中也有利于标签信息的反向传播。

 

两个用户之间的内容相似性定义为:选取一段时间窗口内的信息发布数据,用户A发布信息的集合为 SA,用户B发布的信息集合为 SB,计算  SA和 SB内元素两两之间的语义相似性的均值。 考虑到黑产欺诈行为发布的信息往往具有一定的文本变形、特殊符号等特点,首先排除所有基于分词的相似性算法,因为如果出现分词不当或无法识别的词语,这种具有区分性的语义特征就会丢失。例如:违规信息文本“在——冢打——宇即可”,经过分词输出“在 — — 冢 打 — — 宇 即可”,利用SimHash算法计算指纹只利用了单词“即可”的信息, 变形文本的特征信息完全丢弃。

 

其次,文本语义表征要具有局部敏感性,在文本只做少量变形的情况下,语义表征稳定,有助于发现变形文本之间的语义联系。例如:文本1“在——冢打——字即可”、文本2“在——加打——字即可”和文本3“在——加打——宇即可”,文本1和文本2应该具有较高的相似性,且文本2比文本3更接近于文本1。

我们选用了文本预训练模型作为文本向量化的工具,采用[CLS]位置的隐层表征作为语义向量,通过计算Angular Cosin Distance衡量两个语句之间的相似性。文本向量化的模型架构如图3所示:

 

图3:文本向量化模型架构

 

构建用户之间内容相似性的流程如下所述:设置最大距离阈值
T T,遍历用户A发布信息的集合 SA和用户B发布的信息集合 SB ,计算 SA和 SB内元素两两之间的余弦距离 dista,b,求距离 dista,b的平均值
dist ,如果 dist小于
T T,则连接用户A和用户B,边的权重为 weight。

 

 

行为协同性 两个用户之间的行为协同性是指:特定业务场景的代表性行为,表现出节奏和步调一致的规律,在时间和频次维度体现同步性。在信息发布场景下,我们选取用户登录、发帖作为代表性行为,以小时为单位,分别统计用户登录和发帖的频次,以周作为时间窗口,则用户的行为特征模式可以表示为 24∗7∗2=336维的向量,如图4所述:

 

图4:用户行为特征向量

 

过滤掉整个时间窗口内没有任何代表性行为的数据,即用户行为特征向量的模为0的数据。对用户行为特征向量进行归一化,计算向量的余弦相似性表征用户行为的协同性,考虑到用户行为特征向量具有稀疏性,且归一化的过程中丢弃了模的信息,在现实应用中某个分时窗口内,如果用户A登录1次发帖2次,用户B登录5次发帖10次,则用户A和用户B会被判定为截然不同的行为模式。所以,两个用户的行为协同性计算公式调整如下:

 

 

构建用户行为协同性关系的流程如下所述:设置最大距离阈值
T T,两两计算用户之间的余弦距离 dista,b,如果 dista,b小于 T,则连接用户A和用户B,边的权重为 weight。

 

加速计算 在构建内容相似性和行为协同性关系时,需要两两计算用户之间的余弦距离(因为表征向量都是归一化后的单位向量,所以相似性度量等价于计算余弦距离),计算时间复杂度为 O(N2),对于大规模图计算,时间复杂度太高,可以利用HNSW算法计算每个节点的KNN邻居加速计算,时间复杂度可以降低到 O(NlogN)。

 

3.2.特征提取

 

用户关系图谱能够反映黑产欺诈行为的成团聚集的拓扑结构,而识别和鉴定用户是否有欺诈风险,还需要辅助用户相关的设备、内容、行为、信用等多维度特征信息,概况信息见图1。
对于某些连续特征需要做离散化处理,比如平均文本长度、招聘人数、年龄等特征,离散化后的特征具有更强的鲁棒性,降低模型过拟合的风险。
利用互信息的方法选择相关特征,摒弃冗余特征,获得特征子集,降低模型计算量,缩短模型训练时间,提高模型泛化能力,特征选择流程如图5所示。

 

 

 

图5:特征选择流程图

 

3.3.GraphSaint图神经网络模型

 

至此我们已经构建了以用户为节点的关系图谱,而图是一个典型的非欧式空间,每个节点的邻居数目不确定,缺乏平移不变性,所以深度学习领域的卷积算子无法直接应用于图结构中。图神经网络是卷积算子在图领域的推广应用,本质上是通过堆叠方式聚合K阶邻域节点信息,建模图的局部结构和依赖关系。GCN的前向计算过程如下所述:

 

 

其中:
A A为图的拉普拉斯矩阵。

 

虽然图神经网络强大的建模能力已经引起了学术界和工业界的广泛关注,但大规模的图神经网络应用还存在一些问题:1)传统的图神经网络前向计算过程依赖于拉普拉斯矩阵,聚合邻域特征需要载入整个图,对于节点规模超过百万级别的图,受限于有限大小的显存,会出现OOM问题;2)因为依赖于图的拉普拉斯矩阵,只能进行直推式学习,对于新出现的节点,无法进行归纳推理;3)实际应用中的关系图谱多是无标度网络,节点度服从幂律分布,仅有少部分节点连接着较多的邻居,边的稀疏性导致图神经网络的信息传递失效。第3个问题,通过多模态数据融合已经得到了解决。

 

GraphSaint算法提出采样的方法,从原图中采样子图,在子图上使用FullGCN完成模型的训练,消除了对图的拉普拉斯矩阵的依赖,通过限制子图的大小解决OOM的问题,1)提高了模型的训练效率,2)由直推式学习转为归纳式学习,模型推理计算可以泛化到新的节点。采样算法基于两个原则:1)相互影响大的节点应在同一子图中采样;2)每条边的采样概率不可忽略。算法将节点的连接性作为影响力的评价指标,并允许节点在不同的子图中被重复采样,显示考虑子图采样对GCN带来的偏差,保证采样后节点的聚合过程是无偏的,且最小化采样带来的方差。

 

子图采样过程:1)从顶点集合

V
中采用有放回采样的方法按照均匀分布选择

r
个节点,作为root节点集合

Vroot

;2)把

Vroot
中所有节点放入

Vs
中;3)设定随机漫步的最长距离

h
,遍历

Vroot
集合,选择 v ∈Vroot , 从

v
出发迭代应用随机漫步算法采集

v
的邻居节点

u
,采样序列的长度不超过

h
,把节点

u
放入到集合

Vs
s 中;4)根据

Vs

推导出

Gs
。GraphSaint也支持其他的采样算法:1)节点采样概率正比于节点度的平方,

 

 

2)边的采样概率与节点的度数成反比,

 

在采样子图 Gs中,GraphSaint设计节点
v\in G_s v∈Gs的聚合过程如下:

 

 

其中 au,v是聚合归一化参数, A是子图 Gs中归一化的邻接矩阵, Wl是第
l l层的聚合参数。

 

GraphSaint模型采样+前向计算过程如图6所示:

 

图6:GraphSaint采样+前向计算示意图

 

本文融合多模态数据,从设备、行为、内容信息3个维度,构建用户相关性图谱,选择与欺诈标签强相关的特征集合,利用少量种子节点的标签信息,做半监督学习的节点分类任务,识别黑产欺诈用户。图神经网络的性能损失函数定义如下:

 

 

交叉熵损失函数保障了对带有标签的节点,其预测类别和真实标签尽量相同,而图神经网络蕴藏的图结构保障了在图上相近的节点具有相同的或相近的预测值。

 

应用效果测评

 

本文构建的用户相关性图谱规模150万节点,4000万条边,图神经网络相关算法实现基于pytorch_geometric开源库,欺诈用户识别效果评估的指标主要有精准率、召回率以及F1值。设计对比试验结果如表1所示:

 

表1:图神经网络反欺诈应用对比试验结果

在反欺诈应用中,GraphSaint算法在精准率和召回率上都有1-2%的提升,对比GraphSage算法,训练耗时降低了近40%,算法收敛快训练效率更高。

 

在图神经网络算法应用中,图的构建方式是至关重要的,图结构能否反映现实中节点间真实的交互关系,决定了应用效果的上限。如果图的结构不合理,即使算法模型再强大,也无法得到理想的的效果。本文设计了考虑不同构图要素情况下反欺诈应用效果的对比试验,结果如表2所示:

 

表2:在信息发布场景下构图要素对反欺诈应用的影响

 

在信息发布场景下,内容相似性比行为协同性能够提供更多的线索,贡献度也更高。

 

总结及展望

 

本文通过分析互联网行业常见的欺诈行为方式和特点,提出从关联关系的角度入手,通过多模态数据融合构建用户相关性关系图谱,应用图神经网络算法识别黑产欺诈用户,提高模型的对抗性和泛化性。在与黑产斗争对抗的过程中,信息安全团队虽然已经积累了丰富的经验,但业务反欺诈之路仍然艰辛而漫长。

 

1)优化用户相关性图谱构建工作,提取与反欺诈业务标签强相关的特征集合,提高反欺诈用户识别准召率;

 

2)需要增强设备指纹、生物探针等基础技术的自我保护防破解能力,缩短黑产欺诈用户识别的流程,降低与黑产对抗的成本;

 

3)与时俱进,吸收高新技术加强和完善反欺诈防控体系,建立信息采集、数据智能分析、风险识别与智能决策、快速处置的主动防控链路。

 

参考资料:

 

 

Graph Neural Networks: A Review of Methods and Applications.arxiv 2018

 

A Comprehensive Survey on Graph Neural Networks.arxiv 2019

 

Hamilton et al.Inductive Representation Learning on Large Graphs,NIPS 2017

 

Zeng et al.GraphSAINT: Graph Sampling Based Inductive Learning Method,ICLR 2020

 

Fey, Matthias and Lenssen, Jan E. Fast Graph Representation Learning with PyTorch Geometric,2019

 

https://github.com/rusty1s/pytorch_geometric

 

 

作者简介:

 

赵忠信: 58同城-信息安全部-多媒体算法组,资深算法工程师,专注于自然语言处理、图神经网络的应用与研究,目前负责文本聚类、关系计算方向。

周思丞:
58同城-信息安全部-多媒体

算法组,NLP算法工程师,专注于自然语言处理、知识图谱、图神经网络方向。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注