Press "Enter" to skip to content

一次跨界牵手引发的“蝴蝶效应”

 

 

“科研是探索性的,博士期间的研究经历,让我对科研的前瞻性有比较深刻的了解。而当我进入工业界从事国际业务风控的时候,就希望能够引入学界前沿的方法论,为业界的一些现实问题提供新的解法。”蚂蚁安全实验室安全专家宋博文,在2017年加入蚂蚁集团时,主要负责蚂蚁国际场景的建模工作,包括国际电商平台支付风险、跨境商户风险以及本地钱包风控。在那之前,他从美国纽约石溪大学统计学博士毕业。

 

宋博文的这个想法,就像蝴蝶扇动了一次翅膀,成为一次重要合作的开端。

 

 

在宋博文加入蚂蚁的时候,众多国际电商平台业务适逢风控改造。 和国内海量电商交易数据不同的是,这些国际电商场景下的数据量相对较少。 当时,宋博文所在团队的重要任务之一,就是要用成熟场景的数据和经验,帮助国际电商平台在数据量有限的情况下,快速建模,抵御风险。 迁移学习,成为一个潜在的解决方案。

 

 

蚂蚁安全实验室在2018年启动了系列科研基金项目,宋博文就率先上报了这一课题——国际场景基于迁移学习的风险识别算法研究,并成功携手在迁移学习领域有丰富积累的中科院计算所副研究员庄福振老师团队,正式开启了一段工业界和学界深度融合、共研共创的旅程。

 

 

 

 

前沿研究和工业应用的一次深度碰撞

 

“当接到这个课题邀请的时候,我就很感兴趣。我们过往对于迁移学习的研究主要基于公开数据进行,有机会基于工业界真实业务场景进行研究,从问题假设阶段就能更接近现实问题,很有意义。” 中科院计算所副研究员庄福振谈到,目前每年在AI领域发布的论文有成千上万,但能够有工业应用价值的成果还是凤毛麟角。

 

迁移学习是一种机器学习的方法,指的是一个预训练的模型被重新用在另一个目标任务中。迁移学习的前提是有完备的深度学习框架,而目前广泛使用的深度学习框架主要基于标准化数据进行,如语音、文本、视频等等,如生活中我们在视频网站接受到的推送视频,音乐平台推荐的新歌,或者在新闻APP上看到的推荐文章,都是深度学习的应用。

 

 

而 风控领域的数据最大的特征就是非标准化 ,每一次用户的转账、一次异地登陆、历史记录的删除等等,这些数据都无法用处理标准化数据的方式来刻画,这让传统深度学习的框架在风控领域不能直接应用。

 

另一方面,传统风控领域的数据刻画更多依赖人工经验,如用户在一天中频繁切换设备,那幺人工经验就会将此提取,作为一个风险事件的特征。过多依赖人工经验的判断,不仅大大限制了机器深度学习的空间和效能,也限制了风控的范围。

 

 

因此,宋博文和庄福振团队达成的第一个共识,就是在开展迁移学习之前,先构建一套适合风控场景的深度学习的方法。

 

宋博文回忆到,在提出这个关键问题之后,项目团队就紧锣密鼓地开始了联合研究工作。为了研究工作的顺利推进,他还特别为庄福振老师团队的同学申请了在蚂蚁的实习生职位。这样一来,研究同学能真实的进入蚂蚁业务风控的场景,理解数据,同时宋博文也能第一时间对项目组同学提出的问题给出反馈。

 

 

 

 

共创下的收获

 

一年后,项目组迎来了丰收季。面对3篇顶会中稿的论文和7项成功申请的专利,宋博文笑着说,在项目中除了大家周周开会脑暴,只要有机会和庄老师在一个城市,就要相约见面一起讨论问题。当项目的研究成果陆续收获一些成绩的时候,感觉这一切努力都很值得。

 

2020年,项目团队联合撰写的论文——Neural Hierarchical Factorization Machines(NHFM)for User‘s Event Sequence Analysis,被国际信息计算协会信息检索大会(ACM SIGIR)收录;同年,基于NHFM的迭代框架模型研究成果——Modeling the Field Value Variations and Field Interactions Simultaneously for Fraud Detection,成功被AAAI 2021收录。

 

用户的行为时序的构建有三个要素:时间戳、串联维度以及行为。项目组研究提出的NHFM模型,从用户行为序列角度切入,对用户过去一段时间内先后行为(如注册、登录、支付等)进行刻画,以单次行为的属性表征信息作为基础输入,通过搭建NHFM神经网络层次因子分解机框架,提取同类风险行为相关的表征信息,并对用户的支付行为做出风险预测。与此同时,NHFM引入attention机制,对于模型判断为高风险的交易,还可以输出用户哪些前序步骤是高风险步骤,从而导致了最终模型判断为高风险,让模型不止于黑盒判断,提升整体模型判断的可解释性。

 

 

但随着风险对抗的加强,单一维度的时序刻画在风险识别覆盖上也会遇到瓶颈。因此,在单一维度时序刻画的基础之上,项目组创新性地提出了双维度时序建模框架DIFM(Dual Importance-aware Factorization Machines),通过增加行为内属性时序信息刻画模块来提升模型的识别性能。DIFM模型不仅考虑用户的操作时序,还同时会考虑用户在不同操作中的环境变化,如WiFi、IP是否发生变化等。在卡支付风险交易的识别能力上,DIFM相较传统方案有4%-6%的提升。

 

此外,基于风控数据刻画和深度学习框架的研究,项目组还成功产出了可以应用于Lazada风控的迁移学习成果。项目组的联合论文——Modeling Users’ Behavior Sequences with Hierarchical Explainable Network (HEN)for Cross-domain Fraud Detection,被WWW2020收录。该论文阐述的便是一种对用户操作行为风险层次刻画模式,进行场景间迁移学习的方法和装置。

 

 

对于HEN的提出,庄福振谈到:“一些跨国电商平台,有的国家交易数据很少,我们很难从少量数据中学习到一个很好的欺诈检测模型。所以我们这篇文章的贡献主要有两个:一是我们提出首先单领域欺诈检测模型HEN,同时考虑了可解释性和事件内部的高阶交互;二是针对跨国电商平台,提出了跨领域欺诈检测,提出了一个General Transfer Framework,可以广泛用于各种embedding和MLP的模型。”

 

 

 

 

从国际场景走向全产业风控

 

如今,庄福振团队和宋博文的联合项目已经阶段性完结,成果也陆续在aliexpress等风控场景中落地应用。

 

以NHFM模型为例,在aliexpress的风控场景中,NHFM能从原始数据直接构建模型,提升模型效能,减少计算资源,优势明显。基于平台用户的交易、登录等10个关键行为,及48个原始事件属性构建模型,基于NHFM中因子分解机和时序的神经网络结构共同抽取其中的风险特征,实现端到端建模,最终模型效果相较于传统人工设计特征的建模方案,对风险交易的覆盖提升了2%。

 

 

此外,在传统模型的实时预测链路中,从原始数据加工成人工设计的特征,因为要使用到大量的去重、聚合等计算,会消耗大量的计算和存储资源。而对于NHFM模型而言,由于使用原始数据直接作为模型输入,只需要将用户的历史行为序列进行拼装并输入模型,在模型实时预测链路中大幅降低了特征加工所带来的计算存储资源消耗。同时,NHFM具备实时计算链路的能力,基于特征计算平台获取用户的行为序列数据,并通过分布式模型预测平台进行预测,可以在毫秒级时间内计算得到用户ATO的风险分数。

 

 

“我们的第一优先级是解决风控场景的业务问题,但同时,我们也希望这个模型可以帮助到有相似时序信息预测问题的其他业务中”,宋博文举例到, “我们不仅希望这套模型成为可插拔的应用,减少人工的压力,应用到更多端对端的建模上,减少人工的压力。同时,迁移学习也是和隐私保护息息相关的技术,在未来也可以应用到更多隐私保护的场景中去。”

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注