Press "Enter" to skip to content

机器学习技术在商业银行反洗钱领域的应用

Last updated on 2019年7月11日

作者:中国银行上海市分行 罗素文 韩路

 

随着大数据和人工智能技术的快速发展,商业银行数据资产的价值也愈发显得更加重要,为此,探索大数据的应用场景和商业模式,建立大数据和人工智能平台,推动机器学习相关技术全面赋能商业银行各类金融服务,已成为各家商业银行的重点工作之一。笔者所在的银行依托分行大数据平台,致力于大数据+人工智能+机器学习的探索与研究,运用集成模型和深度学习等机器学习算法,综合运用有监督的模型和无监督的学习方法,建立了反洗钱模型。下面着重介绍模型的方法和实践的成效。

 

业务背景

 

随着经济全球化的发展,洗钱犯罪也越来越严重,这不仅影响到我国金融业的健康发展,还严重破坏了经济秩序。而银行又是作为洗钱犯罪的主要渠道,因此银行的反洗钱工作尤为重要。现阶段,分行的反洗钱工作主要是基于总行的反洗钱事后系统,从案例表中人工去甄别筛查可疑案例,这个过程耗时也耗力。为此,补充现有的反洗钱规则,缩小反洗钱审查范围,降低反洗钱成本是一项迫在眉睫的工作。

 

模型建立

 

1.建模样本及目标变量定义。建模样本为最近一年的主案例,模型的目标变量定义最近一年报送的可用案例。时间窗口定义:观察期,12个月;表现期,3个月。建立反洗钱模型的过程包括:数据清洗、特征工程、模型建立、模型泛化。下面着重从这四个方面介绍模型的建立过程。

 

2.数据清洗。数据清洗,即ETL处理,是指将重复多余的数据筛选清除,将错误的数据纠正或者删除,将缺失的数据补充完整,最后整理成为可供建模使用的数据。本次模型数据清洗涉及的主要有缺失值检验及处理、异常值检验及处理、噪音检验及处理。

 

(1)缺失值检验及处理。对缺失值处理同样要分数值型和字符型两部分,对应数值型变量缺失值的填充方法有总体均值填充、类均值填充、回归预测填充等,本次模型主要采用总体均值填充的方法和业务实际来填充。对字符型变量的缺失值我们用N来填充。

 

(2)异常值检验及处理。异常值通常被称为“离群点”,是指一个变量的值非常极端或者出现频率非常低。常用的处理方法如下:

 

简单的统计分析,对数据进行一个简单的描述性统计分析,如最大最小值可以判断这个变量的取值是否超出了合理的取值范围,如客户的年龄-10岁、170岁、130岁显然是不合理的,为异常值。

 

对于一般的数值型变量根据盖帽原则,将最大值cap值P99分位数;有业务实际意义的,根据业务逻辑处理。对应字符型变量通过查看其分布检验,并根据业务逻辑处理异常值。

 

(3)噪音检验及处理。噪音数据就是无意义的数据,是指数据中存在着错误或异常的数据,这些数据对数据的分析造成了干扰,对于噪音的处理,一般有两种处理方法。

 

分箱法:分箱方法通过考察数据的“近邻”来光滑有序数据值。这些有序的值被分布到一些桶或箱中。由于分箱方法考察的是近邻的值,因此它进行局部光滑。常见的有用箱均值光滑、用箱中位数光滑、用箱边界光滑。

 

回归法:可以用一个函数拟合数据来光滑数据。使用回归找出合适数据的数学方程式,能够帮助消除噪声。线性回归通过找出拟合两个属性(或变量)的“最佳”直线,多线性回归时线性回归的扩展,它涉及两个及两个以上的属性,并且通过数据拟合到一个多维面。

 

3.特征工程。源数据来自客户基础信息、客户交易信息、主案例表、可疑案例表等数据。特征工程主要从客户画像、交易动态切片信息、存取款信息、交易账号、其他特征等维度进行分析。

 

(1)客户画像维度。客户类型是否对私、对公、对公客户注册资金;个人账户是否“三不相符”,个人账户地、身份证归属地、手机号码归属地都不同;国籍为外籍且与个人命名规律不符;是否是老年人;是否是离岸账户、我行员工、大额&可疑是否通过;客户是否为来自高风险国家的外籍客户;外籍个人客户英文名称类似公司名称;开户日期距离案例天数,洗钱风险等级。

 

(2)账户维度。账户交易量激增;账户涉及多个币种交易;个人账户7天内5次及以上提取外币现金等值10000美元;账户先有大额资金进入而后发生大量POS消费;账户余额小于10元次数。

 

(3)交易金额角度。交易金额特殊:借贷双方千元整数倍、交易金额折美元是100、1000、10000倍数的笔数、特定金额整数倍或接近倍数、个人借贷一方千元整数倍、万元整数倍、个人账户贷方特定金额占比高、个人账户借方特定金额占比高、个人账户百元整数倍且有角分、50元倍数且金额不大;特殊金额段转入、转出金额及占总金额占比;小额试探的笔数、占比;转入、转出金额的统计特征;相邻交易金额差、绝对差的统计特征。

 

(4)交易笔数维度。转入、转出笔数及占总笔数的比值;单一交易日等额5000美元存取各1笔;同一网点单日多个个人存取各一笔;跨境交易笔数和占比、金额和占比;个人客户外币交易笔数多规模大;公职人员笔数多金额大;个人贷方交易笔数多金额大。

 

(5)交易时间差维度。相邻交易时间差的统计特征。

 

(6)手维度。交易对手多且涉及多个省;不同对手个数、相邻交易对手相同、不同的次数;对手中对公和对私的数量和比例。

 

4.分析建模。为了检验特征工程的有效性,我们对所有衍生的特征变量进行单变量分析,以查看这些特征在洗钱客户和正常客户之间是否存在明显的差异。并与业务方探讨特征变量对洗钱的影响与业务经验是否一致。

 

(1)有监督建模。对于有标签的案例,建立有监督的机器学习模型。与过往所使用的传统的数据挖掘模型相比,本次使用了有着集成学习王牌之称的Xgboost集成学习算法。Xgboost在绝大多数的回归和分类问题上表现的特别顶尖,在Kaggle数据挖掘比赛中,大部分获胜者都是用了Xgboost。

 

模型结果表明:AUC为0.97,召回率为80%时,精准度可以达到69%,召回率精准度可以同时达到68%,AUC为0.9717。

 

(2)无监督建模。为了综合多个模型的优势,弥补有监督模型在发现更多未知洗钱上的不足,结合iForest的无监督模型,完善反洗钱的建模效果。

 

涉及洗钱的交易流水、账户、及某些其他特征具有区别于正常交易流水和账户的属性,这些属性及其组合可以用来区分是否涉及洗钱。模型预测的是洗钱的可能性的大小,概率越大,越有可能是洗钱交易。

 

(3)有监督与无监督的融合。利用有监督的黑名单特征对具有相似特征的白客户进行涉黑打分。利用无监督的异常得分对有监督没有发现的欺诈类型进行发现并打分。

 

 

在以上公式中,a(0-1之间)指的是随机森林对最终打分的贡献,(1-a)指的是孤立森林算法对最终打分的贡献,rfSocre指随机森林得分,ifScore指孤立森林得分。使用有监督的模型和无监督的模型结合,利用上述评分公式将两者对案例可疑度的评分进行综合计算,得到最终案例的洗钱可疑度评分。

 

应用成果

 

传统的反洗钱监测可疑交易主要基于客户交易金额、地点、时间等维度,依靠人工来甄别排查。根据反洗钱案例评分模型找出潜在的高洗钱评分案例,筛选出topn高评分案例,作为可疑案例排查,有效降低了排查成本,提高了排查效率,减少了误报率。根据模型评分开展日常反洗钱交易的监测与筛查,实现了反洗钱可疑交易数据的集中分析与管理,提升了反洗钱监测分析工作的有效性。同时,根据模型的评分给定三个等级:高风险、中风险、低风险,并结合SOPHONKG进行可视化分析,对客户进行更全面、更立体化的识别,多角度勾勒出客户的行为特征,形成全方位的客户风险画像。通过与客户画像的匹配,识别出客户交易行为的合理性,及时发现客户身份与交易行为之间的异常,有效指导业务部门进一步精细化、针对性地开展反洗钱工作,为及时做出决策提供信息依据。

 

未来,金融机构将加入更多的业务专家指标和交易渠道信息,针对海量交易难以追踪的问题,利用大数据分析及挖掘工具,研发智能化、可视化的反洗钱数据甄别分析工具,准确有效地展示全链路交易情况,基于自然语言等技术的分析挖掘体系,实现对新风险的布控及快速反应;依托AI模型、图谱算法等人工智能技术,研发智能化反洗钱监测工具,一体化综合人、交易、行为等信息,持续优化客户洗钱风险评估方式及可疑交易监测方法,不断完善可疑交易监测模型,逐步提高洗钱风险识别的有效性,建立完善的反洗钱风控体系,加强行业专家对监管要求和风险监控方向的精准把控。

 

本文节选自《金融电子化》2019年06月刊

 

声明:本文来自金融电子化,版权归作者所有。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注