Press "Enter" to skip to content

亿展宏图 第七篇|动态图算法

 

作者|韩志超

 

编辑|林颖

 

供稿|eBay支付风控团队

 

本文共3690字,预计阅读时间8分钟

 

 

导 读

 

“亿展宏图”是eBay 支付风控团队推出的系列文章,分享了eBay风控团队工作在图算法方面的一些理解和研究。在上期的 亿展宏图 第六篇|相似度构图的高效聚类方法 里,我们展示了如何在海量数据的大图上构建基于相似度的边,并通过高性能的聚类算法进行聚类并定位恶意注册团伙。 本期亿展宏图,针对eBay风险 集中注册 欺诈场景的时间集中的特性,eBay支付风控团队巧妙地在建模阶段引入了异构的 动态图 ,比静态图能在更早的阶段识别出可疑账号。

 

01

 

背景

 

集中注册 ,是指一个用户或一个组织,使用自动化的手段,批量注册用户账号的行为。许多电商网站为了方便用户做批量注册,提供了集中注册的功能。电商网站只需提供模版和对应的填充字段,用户可以在短时间内得到多个账号,如下图所示。

 

 

(点击可查看大图)

 

除了官方提供的模版形式的操作,程序化的脚本也能够通过表单提交的方式完成这类操作。在欺诈场景中,这种大规模具有可疑行为的新注册账号,常常会转变成高风险买家。如果能在账号注册早期就识别出来并采取行动, 这对卖家和电商平台损失的有效保护。

 

现今,欺诈者很少使用人工手段注册单独的账号,更多的是使用工具进行批量的用户注册, 这些风险账号很可能会针对普通用户进行大规模的 战术欺诈 ,如:

 

① 使用被偷卡进行支付

 

② 违规使用优惠券

 

③ 刷单,刷好评

 

④ 销售虚假礼品卡

 

以上欺诈包含着一些典型的 模式 ,如

 

① 使用的支付手段是偷盗而来的,比如从黑市购买的

 

② 邮寄地址是一个仓库,并混杂在诸多正常的邮寄地址里

 

③ 注册的邮箱以乱码形式呈现

 

④ 电话号码已经被录入第三方可疑列表中

 

⑤ 新注册用户使用大量礼品卡进行支付

 

传统的防范集中注册风险的检测主要依赖于:规则模型的自动识别和针对单个账号的人工审核。这样的方法有以下 四个 缺点 :

 

1)大部分规则都是针对已知风险模式进行编写的,只有少部分风险用户模式能被检测到。

 

2)规则系统受限于灵活性,会影响部分正常用户的合理业务操作。

 

3)人工审核环节的效率较低,可扩展性有限。

 

4)目前的规则模型,只具着眼于单独账号的特征,遗漏了有组织的欺诈者在团伙层面的特征。

 

基于近年来的集中注册案例,我们观察到集中注册有 两个 显着特征 :

 

1)可疑账号常常是具有内在联系的,例如共用的手机号码,注册时使用的 IP 地址等。

 

2)同一团伙的可疑账号的注册时间通常集中在一定时间窗口内。

 

02

 

GNN 在反欺诈场景的应用

 

随着 GNN 在业界受到了广泛关注,更多的研究也从偏传统的适用于同构图的Graph Convolutional Network (GCN) [1] 和Graph Attention Network (GAT) [2] ,转向了异构图,如Heterogeneous graph transformer (HGT) [3] 和Heterogeneous graph neural network [4] 。

 

鉴于上述集中注册的团伙关联特性,我们采用了图神经网络(GNN) 。同时,基于集中注册的两个显着特性, 我们在传统的同构图和静态图的基础上,进一步引入了异构图和动态图。这使得基于GNN的集中注册检测系统有如下 优点 :

 

1)考虑到时态变化,能更有效地从动态图结构中学习特征表达。

 

2)能从交易异构图的局部社区中捕获到连接点的有效信息。

 

在异构图中,每个节点分别表示不同类型的实体,比如在注册风险场景中的 实体 包括:

 

① 账号用户

 

② 地址

 

③ 电话号码

 

④ 注册设备类型

 

不少在欺诈检测方面的工作如AHIN [5] ,GEM [6] 和xFraud [7] ,都证实了异构图的图神经网络能够有效地捕获欺诈行为在不同设备所展现出的特定模式。

 

基于时间信息构建的动态图,通常被应用到同构图上,一个典型代表是DySAT [8] 。DySAT极具启发性的一点在于:它在建模构图阶段,引入了时空概念。而在神经网络的架构方面, 使用了接近相对传统GAT [2] 的自注意力(self-attention)网络(如下图所示)。这相对于实现层面而言,引入的概念并不复杂,易于实际应用。

 

 

(点击可查看大图)

 

不过在集中注册这个场景上, DySAT本身还存在以下 不足 :

 

1)原生的设定应用于同构图上,并不支持异构图,以至于无法很好地区分用户节点和关联实体的节点。

 

2)需要所有节点在各个时空切片都存有映射,而在集中注册这个场景下,用户节点作为新用户状态,不会跨多个时间切片。

 

03

 

DHGReg

 

为了以上两个问题,我们提出了动态异构图神经网络(Dynamic Heterogeneous Graph Neural Network,DHGReg) [9] , 在后面的部分将会介绍我们如何在数据构图方面和GNN网络架构方面解决上应对集中注册风险识别这个业务的挑战。

 

3.1 图关联关系的构建

 

集中注册的风险识别可以作为一个二分类问题,采用了异构二部图的形式构图,如下图所示,每一条边都构建在注册账号和关联实体之间。

 

 

在二部图的基础上,为了将不同实体在各个时间切片上的表现让模型能感知到, 除了用户节点,我们还引入了切片节点和实体节点。这样我们在图上有如下 三种 节点类型,分别是:

 

用户节点:主要关注点在新注册用户,而用户是一直被固定在一个时间切片上的。

 

关联实体的切片节点:和用户会产生关联关系,固定在用户注册的时间切片上。

 

关联实体的节点:和切片节点产生关联关系。

 

这样构建起来的异构图分别有结构子图(structural subgraph)和时空子图(temporal subgraph), 分别如下图中(a)和(b)所示:

 

 

(点击可查看大图)

 

(a) 结构子图 :由用户节点和关联实体的切片节点构成,所有节点的时间点信息是相同的,不存在跨越切片的关系。

 

(b) 时空子图 :由关联实体的切片节点和关联实体的节点构成,逻辑上是星状图。

 

 

在模型的实验上,所使用的设定是 转导 (transductive),如上图所示,即

 

1)训练数据和测试数据所用的图是相同的,即所有点边关系都出现在训练和测试阶段。

 

2)在训练阶段和测试阶段,所有节点的特征是可见的,即蓝色节点和黄色节点的特征在训练阶段都是非空的数值。

 

3)测试节点的标签在训练阶段是不可见的,在上图中,只有蓝色节点的标签是有效的,黄色节点的标签不会参与训练。

 

3.2 模型网络架构

 

针对上述结构子网络和时空子网络,我们提出了如下的DHGReg网络层:

 

 

DHGReg网络结构,在传统的深度学习网络层的基础上,引入了两层卷积层,分别是只消费同一时间切片的结构关系,和只消费同一实体和不同时间切片节点的关系。这样DHGReg可以首先融合实体本身和同一时间片用户邻居的特征,通过非线性变化,再融合其他切片的实体摘要信息,由其提炼到的特征给到下游网络。

 

通过堆叠多层DHGReg网络层,可以使得带有时间关联的信息重新回到空间图的节点中,如下图所示。

 

 

相对于DySAT [8] , DHGReg的网络结构更好地处理了空间和时空关系的交错, 使得孤立于时间切片内的标签在学习的过程中梯度的影响仍然可以跨过时间切片。

 

3.3 实验表现

 

为了验证DHGReg的有效性,我们选取了某段时间内新注册的部分用户信息进行采样。对于此采样数据,我们利用了用户账号、电子邮箱、手机号码和登录IP 四种 链接关系,构建用户关联图。

 

针对该用户关联图,我们分别用传统的神经网络多层感知器(MLP)、图卷积网络(GCN)、图注意力网络(GAT)和DHGReg模型进行实验,实验结果如下:

 

 

从上表的实验结果,可见DHGReg模型的准确度是最高的,说明:

 

1)以图关系作为特征增强的手段,对模型的识别能力有显着提高。

 

2)对时间关系和空间关系的进行区别处理,使得信息通过图关系传导的有效性得到进一步提高。

 

04

 

总结

 

集中注册的欺诈风险检测,在网络架构方面没有引入全新的概念,仅仅在异构图构图形式的基础上,引入了时间切片的概念,如此可以有效地捕获不同阶段下风险用户的特征模式。除了跨时间的特征被捕获到以外,时间切片节点的引入还可以有如下 方向 ,可在将来的构图建模上有待进一步尝试:

 

1)有向边构图,避免GNN实验中的未来信息被忽视,使得训练和部署的场景一致。

 

2)关联节点的Embedding的缓存更新,缓解GNN在实时预测的生产环境中产生的邻居节点延迟的问题。

 

参考资料:

 

[1]Kipf, Thomas N., and Max Welling. “Semi-supervised classification with graph convolutional networks.” arXiv preprint arXiv:1609.02907 (2016).

 

[2]Veličković, Petar, et al. “Graph attention networks.” arXiv preprint arXiv:1710.10903 (2017).

 

[3]Ziniu Hu, Yuxiao Dong, Kuansan Wang, and Yizhou Sun. Heterogeneous graph transformer. In Proceedings of The Web Conference 2020, pages 2704–2710, 2020.

 

[4]Chuxu Zhang, Dongjin Song, Chao Huang, Ananthram Swami, and Nitesh V Chawla. Heterogeneous graph neural network. In Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 793–803, 2019.

 

[5]Yiming Zhang, Yujie Fan, Yanfang Ye, Liang Zhao, and Chuan Shi. Key player identification in underground forums over attributed heterogeneous information network embedding framework. In Proceedings of the 28th ACM International Conference on Information and Knowledge Management, pages 549–558, 2019.

 

[6]Ziqi Liu, Chaochao Chen, Xinxing Yang, Jun Zhou, Xiaolong Li, and Le Song. Heterogeneous graph neural networks for malicious account detection. In Proceedings of the 27th ACM International Conference on Information and Knowledge Management, pages 2077–2085, 2018.

 

[7]Susie Xi Rao, Shuai Zhang, Zhichao Han, Zitao Zhang, Wei Min, Zhiyao Chen, Yinan Shan, Yang Zhao, and Ce Zhang. xfraud: Explainable fraud transaction detection on heterogeneous graphs. arXiv preprint arXiv:2011.12193, 2020.

 

[8]Sankar, Aravind, et al. “Dysat: Deep neural representation learning on dynamic graphs via self-attention networks.” Proceedings of the 13th International Conference on Web Search and Data Mining. 2020.

 

[9]Rao SX, Zhang S, Han Z, Zhang Z, Min W, Cheng M, Shan Y, Zhao Y, Zhang C. “Suspicious Massive Registration Detection via Dynamic Heterogeneous Graph Neural Networks.” 5th International Workshop on Deep Learning on Graphs: Method and Applications (DLG-AAAI’21) (2020).

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注