Press "Enter" to skip to content

【ATEC2021比赛技术分享】基于预训练的电信网络欺诈识别

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本次ATEC科技精英赛以可信AI为主题,反欺诈风控为背景,要求选手在限定时间内完成多个赛题,实现AI算法在金融风控场景的可信应用。

 

 

郭达雅

 

中山大学-微软亚洲研究院联培博四学生

 

研究领域:自然语言处理、代码智能

 

郭达雅比赛成绩 :

 

●ATEC2021线上赛“网络欺诈举报定性”赛道科技达人榜冠军(赛队名:一把梭)

 

●ATEC2021线上赛“数字货币交易欺诈识别”赛道科技达人榜亚军(赛队名:一把梭)

 

●ATEC2021线上赛“网络欺诈举报定性”赛道答辩 第一名

 

●ATEC2021线下赛冠军(战队名:能靠实力偏要拼颜值)

 

ATEC 2021线上赛方案

 

“网络欺诈举报定性”赛道

 

一、赛题背景

 

赛题是从当前社会中高发的电信网络欺诈识别场景入手,提供用户的投诉欺诈信息,要求选手识别投诉中的欺诈风险。本赛题存在着工业应用中常见的“数据源差异”、“数据维度特征缺失”和“数据有限”而导致的模型应用困难的问题。因此,本赛题考察AI模型如何通过多源数据的有效应用以及半监督学习技术,实现有限数据下的模型决策。

 

二、赛题理解

 

1) 数据集: 本赛题给出了约5万条的投诉欺诈信息,每条数据包含480个结构化特征和1个非结构化特征。其中结构化特征是欺诈投诉举办案件中主被动双方的相关风控匿名特征,而非结构化特征是举报描述的脱敏文本信息

 

2) 目标: 根据提供的投诉欺诈信息,识别投诉中的欺诈风险,是个二分类问题

 

3) 评价指标: 到达精确率为90%/85%/80%的模型分数阈值下对应的召回率,以0.4/0.3/0.3的比例加权平均

 

4) 赛题难点与分析

 

 

图1. 赛题难点与对应模型方案

 

在本赛题中,主要存在的问题和解决方案如图1所示。

 

1)首先最难的问题在于结构化数据是匿名的,我们无法获取特征的描述,自然也没法人工进行数据分析。其次带来的问题还包括:缺失值未知,数据类型未知,数值范围未知。这些问题的存在导致了我们无法直接使用如BERT这样的神经网络,因为神经网络的输入需要进行数值的归一化,但我们并不知道数值范围。并且针对类别特征还要进行特殊的处理,例如embedding,但我们也不知道数据类型。因此,我们使用了集成模型,例如LightGBM,来处理这些结构化特征。该集成模型能够支持各种类型的特征如数值特征和类别特征,也能够支持缺失值。由于LightGBM是一种树模型的集成,因此也无需担心数值范围。

 

2)针对文本特征,我们自然使用了预训练模型BERT。BERT是一种预训练模型,它首先在大规模的语料中进行预训练然后在下游任务上进行微调。相较于LightGBM,其拥有着强大的文本语义理解能力。

 

5) 解决方案: LightGBM与BERT的结合

 

 

图2. TL-BERT模型框架

 

在上面的赛题分析中,我们提到LightGBM来处理结构化数据,而用BERT来处理文本数据,但这两者如果联合在一起的话,如何进行训练呢?针对该问题,我们提出一个新的模型TL-BERT (Tabular-Language BERT),如图2所示,其主要的核心是将结构化特征转化为序列特征。

 

这里我们使用LightGBM将结构化数据转化为类似文本的序列特征Y。假设该样本在LightGBM中第k棵树所对应的叶子下标为index_k,那幺序列Y的第k个值则为k × max_leaf_num + index_k,其中max_leaf_num是每棵树的最大叶子数目。为了获得该序列特征,我们直接利用LightGBM的API来得到每棵的叶子下标:

 

Y = Lgb.predict(X, pred_leaf=True)

 

得到LightGBM转化后的序列特征后,我们可以将该序列当成等同于中文的另一种语言,将该序列与文本序列拼接起来经过中文预训练好的BERT。对于这种“新”语言,我们随机初始化该语言的embedding层。最后获得BERT的池化特征后,我们进行二分类。

 

6) 模型的预训练

 

在上述的模型中,存在着一个问题:LightGBM序列所对应的embedding是随机初始化的,这样会破坏了原来预训练模型的输入形式,使预训练模型性能降低。因此,我们在本赛题的数据中进行预训练。我们使用MLM(Masked Language Modeling)任务作为我们的预训练任务,随机掩盖掉15%的单词(包括中文文本和LightGBM所得到的序列),然后让模型预测被掩盖掉的单词。该预训练不仅能够对齐不同模态的表示,同时也能够充分利用无标签的数据,缓解了工业界中“标签数据有限”的问题。

 

 

图3. TL-BERT预训练任务

 

7) 实验结果与排名变化

 

 

表1. 不同模型的分数与排名

 

表1是不同模型在线上赛中的表现。我们可以看到只使用LightGBM也是能够取得不错的成绩的,并且在线上赛中能够排到前十。当使用了预训练模型BERT,并与LightGBM结合,可以取得更好的成绩,能够排到第7名。但由于LightGBM的引入,破坏了原来预训练模型的输入形式,所以成绩提升也不是很大。当我们使用了MLM进行预训练后,我们可以看到,模型的性能得到了很大的提升,并且排到了第1名。

 

ATEC 2021线下赛方案

 

在线下比赛中,赛题更加复杂,给出了交易双方额外的历史信息。我们针对交易双方的历史记录进行了特征工程,包括了几个重要的历史信息:交易金额变化,交易对象,按钮操作顺序。

 

1) 交易金额变化: 通过交易金额变化的数据,例如方差和最大最小值,能够更好地推断当前这笔交易的异常程度。比如用户突然出现一起巨额交易,那幺我们需要更加关注这笔交易,因为往往诈骗交易的金额数目都比较大的,并且与用户之前的交易金额数目很不一致。

 

2) 交易对象: 对交易对象进行人物画像,如果收款方经常交易失败,那幺有可能是实施诈骗而导致的多笔交易失败。对于这样的交易对象,模型能够更加准确地预测是否是一笔诈骗交易。

 

3) 按钮操作顺序: 有时候交易中途会弹出验证对方姓名的情况,如果直接退出然后打开对话框问对方姓名极大可能标识对方是陌生人。

 

最后我们将这些历史统计特征和序列特征作为输入,使用LightGBM进行学习,并预测出欺诈交易的概率。

 

 

致   谢

 

首先感谢主办方在“科技反诈”的主题上,提供了重要的数据和赛题,让我们进行科技创新,为反诈行动做出一点贡献。“科技反诈”是一个有意义且具有社会价值的研究方向,它能够帮助人们自动识别诈骗信息,提高警惕,减少财产的损失。同时也感谢各位老师们辛苦的付出,为我们提供了一个强大的技术支援。最后,希望比赛越办越好!

 

*本文章仅代表作者个人观点。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。