Press "Enter" to skip to content

打击羊毛党:无监督学习在金融业务场景的研究与应用

基于甜橙金融的业务场景,作者分享了他们使用无监督学习打击套利欺诈行为的解决方案。

 

一.业务场景

 

风控 (风险控制) 伴随着金融业诞生之初就与之相伴. 传统金融业常见的风险类型包括身份盗用, 钓鱼, 盗卡盗刷等. 到了移动互联网时代, 金融风控也遇到前所未有的挑战, 行业内涌现出各类新型的错综复杂的欺诈手段. 2018 年中国信通院和腾讯联合发布的《数字金融反欺诈》报告分析了 18 年金融业的黑产事件, 总结出当前互联网金融欺诈的几个趋势 [1]:

 

趋势一: 用户个人信息泄露助长了网络黑产的气焰. 仅 2018 年, 国内即发生多家重要机构或企业客户信息泄露事件, 泄密数量总计超过 60 亿条.

 

趋势二: 针对金融 APP 的木马攻击呈现高度定制化趋势. 该类攻击主要通过木马发起伪冒交易操作, 由于攻击来自用户本人设备, 使得金融行业传统防控手段难以在第一时间控制.

 

趋势三: 生物识别技术引入新的风险点。人们已发现利用 GAN 生成的「万能指纹」可以轻松骗过指纹传感器; 仅使用在社交媒体上找到的照片就可以在很多平台上解锁人脸识别. 生物识别技术带来便利的同时也带来了额外的风险点.

 

趋势四:「羊毛党」造成的损失日益严重.

 

报告中列举了 2018 年发生的多起较严重的职业『羊毛党』套利事件: 某」羊毛党「发现国内某知名电商平台存在漏洞, 利用这个漏洞可以无限制领取 100 元无门槛全场通用券, 于是他通过手中大量该电商账号领券, 并以每张券不足 1 元购买 100 元话费或 QQ 币的形式套现. 最后为了逃避被追责, 该『羊毛党』将漏洞发到羊毛群中, 引发大量」羊毛党「疯狂薅羊毛, 最终造成电商平台巨额损失. 据官方通告, 损失在千万元级别;

 

某着名咖啡企业推出拉新活动, APP 新注册用户即可免费领取一张兑换券, 在线下门店兑换任意一杯当季特饮. 无数专业的「羊毛党」利用自动注册机, 后台自动调用二维码平台进行注册领券, 短时间内获取数十万张电子兑换券, 其成本仅为 0.1 元, 然后「羊毛党」通过网络渠道以便宜价格进行倾销变现. 仅仅一天时间, 该企业 APP 虚假注册量已达到 40 万, 保守估算, 其的损失可能高达千万元.

 

数据显示截止到 2018 年 6 月, 我国网络黑产从业人员已超 150 万人, 据估计造成的损失规模高达千亿元级别. 其中职业「羊毛党」群体造成的损失占很大比例且其欺诈形式日趋隐蔽, 最常见的欺诈形式如下图展示。

 

 

例如, 一位用户到某电商或支付平台上领取了一张 5 元代金券, 到指定商家消费购买 10 元价值的商品, 实际只需支付 5 元, 另外 5 元用现金券抵用. 最后平台方将与商户间结算. 这类活动一方面让广大用户获得了切实的优惠, 一方面帮助平台公司提升用户质态, 打磨产品, 也为国内消费升级提供多元化渠道, 因此这类活动多有裨益.

 

然而, 这些活动背后的用户却不都是活动的目标用户, 而是存在一群职业套利群体. 他们通过机器人, 注册机, 模拟器, 猫池等多种形式在平台上注册大量虚假用户账号, 利用这些账号在活动期间大量领券, 最后通过多种渠道变现. 这类欺诈行为一方面令大量真实用户无法享受活动优惠, 另一方面也使得平台方营销活动的效果大打折扣, 进而浪费社会资源. 因此这类行为对社会, 对企业, 对个人的利益都造成了很大损害.

 

为应对这类套利欺诈行为, 当前常用有两种策略: 一种是基于规则的策略. 通过事后数据分析以发现风险事件的特征掌握其规律, 随着一定阶段的积累, 往往可形成一套专家系统, 其内部针对一笔交易可能多达上千条规则条件以评估该交易的风险系数, 实践也证明这类策略直观有效, 多数金融企业至今还较依赖这类专家系统.

 

但到了移动互联网时代, 信息瞬息万变. 基于规则的策略相对滞后的特性面对层出不穷的欺诈手段也愈发显着, 而此时基于机器学习模型的策略可以很好的补足传统规则策略的短板. 目前常见的机器学习算法模型有 Bayesian 网络, Tree based 模型, Clustering, Reinforcement learning 及近几年快速发展的 Deep Learning 等, 而近几年机器学习在金融领域的应用也不乏成功案例。

 

但在群体套利场景下应用机器学习存在几个挑战: 首先, 数据标签极难获取, 而在当前主流的大数据拟合小目标的监督式建模框架下, 通过人工标注会耗费大量的人力物力资源; 其次, 特征空间高维且稀疏, 这给模型训练增添了很大障碍; 最后, 模型的效果很大程度取决于特征的完备性, 而特征工程往往强依赖业务经验, 开发出一个有效的特征可能会需要一个人或团队花上几周甚至几个月的时间. 因此, 如何在高基维空间下, 无监督式学习与识别这类群体性显着的高危群组并发掘其背后的风险特征, 是业内一直在探索的问题.

 

二. 对抗式自编码器 (Adversarial AutoEncoder)

 

最早的自编码器 (AutoEncoder) 提出主要为解决数据降维问题. 传统的自编码器由两块结构相互对称的网络组成: Encoder 和 Decoder, 且均为全连接网络. Encoder 的输出是一个任意指定长度的向量 (一般远小于输入数据维度) , 称为隐变量(Latent Vector) .隐变量输入 Decoder 网络后生成重构数据, 自编码器训练的目标函数即最小化重构误差.

 

 

传统自编码器存在几个问题. 首先, 它训练得到的是一个无结构化的隐式空间, 即输入样本间结构化信息在隐式空间将丢失; 其次, 全连接网络设计下的自编码网络在实践中被证明具有较大局限性.

 

因此, 学术界在传统自编码网络基础上提了多种改进, 相继提出了基于卷积神经网络(CNN) 的自编码网络, 基于长短时记忆网络 (LSTM) 的自编码器, 深度信念网络 (DBN) 自编码, 稀疏自编码 (Sparse AutoEncoder) , 差分自编码 (Variational AutoEncoder) , 对抗自编码 (Adversarial AutoEncoder) 等等. 它们的应用也从最初的数据降维到近几年的图像降噪, 去水印,数据压缩, 数据生成等等.

 

Adversarial AutoEncoder 是一类生成式概率自编码器, 它在传统自编码器的基础上利用对抗生成网络约束 Encoder 输出的隐含层拟合任意一种指定的先验数据分布 [2].

 

 

对抗自编码器训练在传统自编码器训练基础上加入了一个对抗式训练环节, 如此设计的好处是训练中只需要从先验数据分布中采样, 而无需 access 先验分布的实际函数形态即可约束隐式空间, 因而在实际使用中可以为对抗自编码网络指定更加复杂的先验分布.

 

 

三.甜橙金融的解决方案

 

面对海量数据且标签未知的情况下, 如何更高效的识别恶意套利群体? 从上一节的内容中可以发现,对抗自编码器能够通过非线性变换将高基维空间下的原始数据映射至低维空间得到一个隐式表征 (Representation), 同时保留空间的结构化信息. 因此, 围绕对抗式自编码网络我们的实践方案是:表征学习. 具体流程:

 

 

 

数据准备阶段. 对数据进行预处理, 剔除无效数据, 并对特征进行轻度加工以贴合给定的目标场景.

 

表示学习阶段. 将准备好的数据输入对抗自编码器进行训练, 目的是提取输入数据的隐式表征以供下一阶段使用. 该阶段下隐向量长度是较重要的超参数.

 

聚类阶段. 用高斯混合模型(Gaussian Mixture Model) 对隐变量进行不同程度的聚类. 最后得到不同大小的群组进入分析阶段.

 

分析阶段. 在早期分析阶段,聚类得到的群组所依赖的特征不一定能够准确贴合给定的目标场景, 而此时的问题很大概率是出现在数据准备阶段. 借助树模型可观察各群组区分度高的特征, 进而对输入数据进行必要的调整, 直至数据质量足够贴合目标场景. 经过多次调整后的数据处理后得到的各群组已具有较高的价值, 也可令风险排查更具条理. 此时可对可疑的群组进行数据抽样, 交由运营的同学进行核实, 若一个群组几次采样得到的数据中均存在高比例账号被确认是套利用户, 该群组即可被标注为高危群组并进行相应处理; 最后, 套利群体的欺诈模式, 特别是发现未知的行为模式, 对风控来说具有更大的意义. 因此对得到的高危群组, 与其他排查后被认为是正常的群组分别进行标注, 再通过树模型训练即可得到套利群体的显着性特征.

 

 

四. 实验结果

 

我们在公司往年的一次营销活动数据上应用这套方法.

 

 

上图展示的两组数据分别是在限定对抗自编码器隐变量长度为 50 维和 100 维的情况下, 输出高斯混合聚类50 和 100 个群组得到的结果, 其中红色代表的是套利账号, 蓝色代表的是正常账号.

 

 

从两组数据的混淆矩阵可以看出在隐空间大小为 50 和 100 的情况下, 高斯混合聚类模型输出 100 个群组取得的结果均略优于 50 个群组的结果. 在隐变量长度为 100 的情况下, 高斯混合聚类模型输出 100 个聚类得到的 Recall 接近 53%, 略优于 50 个聚类得到的 48%, 但 FPR (False Positive Rate) 也比自编码器隐变量长度为 50 的时候高了一倍. 这个结果在没有用任何数据标签的情况下, 是个不错的开始.

 

随着业务的运行, 我们公司得以积累一定量的数据标签. 如何更有效的利用这些数据标签呢? 如果直接应用到监督式学习, 仍面临极严重的类别不平衡问题, 导致分类器的性能很差. 另一方面, 结合业务场景, 若将这类组织特性较强的群体套利问题转换为二分类问题, 易丢失数据间的关系型信息. 因此, 我们维持原有方案框架, 但是将标签数据用于对抗自编码器以期进一步提升隐向量的表示能力, 将无监督的对抗自编码网络换成半监督的对抗自编码网络并应用到给定场景中.

 

对抗自编码的半监督学习在论文 [2] 中也有介绍. 它将原先 Encoder 输出由一个隐变量改成了两个, Decoder 网络 利用这两个隐变量进行数据重构. 此外增加两个独立的对抗网络分别对两个隐变量正则化, 约束一个隐变量服从标签数据类别分布, 另一个服从预先指定正态分布.

 

 

此时通过对抗自编码器半监督学习得到的隐向量代入前述方案应用到同一批营销活动数据当中.

 

 

对抗自编码网络隐向量空间长度为 100,高斯混合模型聚类30 个群组, 分别用了 1%, 5% 和 10% 标签数据用于训练. 结果数据显示使用 10% 标签数据, 召回率可达 87%, 同时 FPR 还控制在较低水平. 可以明显看出, 用了 10% 标签得到的结果优于 5% 并优于 1% 得到的结果.

 

而对比两次实验结果, 半监督对抗自编码在这个场景下取得的效果优于无监督的对抗自编码网络.

 

 

关于甜橙金融:甜橙金融是中国电信布局互联网金融和金融科技的重要板块, 是唯一入选国务院「双百行动」和发改委第四批混改试点的金融科技企业. 近年来, 甜橙金融在大数据,人工智能,云计算等金融科技前沿领域积极探索创新, 以金融科技赋能业务创新, 实现了高速度规模发展. 甜橙金融着眼于技术人才培养和前沿领域技术, 不断推进产, 学, 研融合发展的同时, 也在持续为行业输出甜橙金融的科技方案!

 

参考文献:

 

[1]腾讯&中国信通院. 2018.11. 数字金融反欺诈-洞察与攻略. http://www.caict.ac.cn/kxyj/qwfb/bps/201811/t20181127_189555.htm

 

[2] Makhzani, A., Shlens, J., Jaitly, N., Goodfellow, I., & Frey, B. (2015). Adversarial autoencoders. arXiv preprint arXiv:1511.05644.

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注