Press "Enter" to skip to content

「AI+金融」新纪元 : 基于移动行为弱数据打造金融信贷强风控

移动智能设备的爆发式发展和金融业务的线上化趋势促使整个金融体系的业务都在向全面移动数字化转变,基于用户移动行为的数据体量和丰富性也都在过去两年得到飞跃提升,这些行为数据一方面具有被动数据的特点,更加真实难伪造,能够客观描述一个人长期的金融行为习惯,另一方面,也具有触手可及,获取成本极低的特性。

 

为了探索用户在移动互联网上的行为数据与金融欺诈及风险的相关性,氪信科技研发出一套挖掘行为大数据深度价值的行为语言处理技术(Behavior Language Processing,以下简称“BLP”),并将此项技术与金融场景相结合,应用于信贷风险控制,以及获客营销推荐、交易反欺诈等多个金融垂直解决方案和产品中。在普惠金融背景下,面对金融服务人群的下沉和金融风控服务的精细化运作,为客户提供了行之有效的解决方案。

 

BLP并不是一项单一的技术,更确切地说,它是由多种最先进的人工智能技术有机结合的技术框架。首先,对不同结构和不同类型的用户行为数据(包括但不限于应用内行为事件流数据,时序轨迹数据,社交关系数据,对话数据等),通过ID-mapping、知识图谱等技术进行数据整合,构建统一数据模型;其次,利用数据挖掘技术、图理论以及深度学习等特征提取框架提取数据的金融信号,构建超高维用户金融画像;然后利用复杂集成模型、领域模型迁移等技术构建风险预测模型;最后,输出可用于风险甄别的结果,以及使用“黑盒”模型解释技术所达到的决策支持描述等。

 

BLP 技术亮点:

 

BLP技术最核心的模块为氪信金融知识图谱,即在行为数据上提取金融信号的过程。传统评分卡特征开发主要依赖专家领域知识,然后通过繁琐的特征分析进行特征组合以及特征筛选,然而这一套方法对依赖行为数据的风控体系不再适用。氪信金融知识图谱技术,使用先进的ID-mapping技术融合打通各种异质异构的非结构化和结构化数据,然后在专家领域知识工程之外,根据不同的数据类型针对性地使用不同的机器学习方法和数据挖掘方法生成特征,最大化地挖掘数据信息价值,衍生上万超高维特征。但是,氪信并不崇尚忽略业务的可解释性,盲目暴力衍生特征。高维的特征会根据其业务含义映射为反映用户风险信用的各个维度——譬如身份属性、履约能力、信贷历史、行为特质、消费偏好、社交影响,构建丰富全面的金融画像图谱等。氪信金融知识图谱包括但不限于以下模块:

 

 

    1. 人工专家特征模块:根据风控专家领域知识结合数据挖掘技术构建不同数据领域的特征以及特征衍生逻辑。

 

    1. 文本特征提取框架:在大数据风控中文本类数据,包括客服记录、催收对话等都可以作为风控的原材料进行用户画像标签挖掘和情感分析, 提取文本类特征的方法包括基于无监督的主题模型(LDA),基于深度学习框架(word2vec+ 卷积网络(CNN)),以及Bert等预训练模型叠加fine-tuning的特征提取方法等。

 

    1. 时序特征提取框架:无论是强金融数据(央行信贷历史,交易流水) 还是弱金融数据(通话记录)等都是典型的时序数据,基于大数据技术的时序特征提取模块可以充分挖掘时序列数据的信息价值,这类方法包括基于深度循环网络的特征提取框架(LSTM)提取时序模式向量等。

 

    1. 基于社交网络的特征:根据各类关联数据构建申请件与关联实体的双模网络,提取与申请件相关的网络局部风险特征以及根据标签传播算法得到的全局网络风险特征。

 

    1. 位置轨迹特征提取模块:地理位置数据除了用于核验以及反欺诈之外,轨迹数据通过关联地图和POI语料数据,结合轨迹聚类等数据挖掘技术,可提取反映申请人地理位置活跃度、稳定度、兴趣偏好等地理位置的画像标签。

 

 

BLP技术的另一个核心特色就是集成模型技术。由于使用了升维技术来提取特征,传统评分卡的建模技术不再适用。在具体建模过程中,可根据包括特征区分度(IV)、特征稳定性(PSI)、特征贡献值(Boruta)等方法进行特征的初步筛选,然后,使用集成模型技术对稀疏高维的弱特征进行有效建模。大数据风控预测模型主要使用集成模型的思路。在各类数据领域上使用相应的特征生成模块生成特征,并根据风控金融知识图谱映射到反映申请人身份属性、履约能力、信贷历史、行为特质、消费偏好、社交影响等维度, 并在相应的维度上根据数据的特点构建各维度子模型. 初级子模型建模算法的选择包括boosting tree,深度学习分类器网络等方法。次级集成模型的集成方法一般使用逻辑回归的方法集成各个初级子模型, 最终预测欺诈或者违约概率。

 

 

【集成模型建模框架】

 

这种集成模型框架的优势包括:

 

-数据价值最大化: 不同领域及维度的数据具有不同的特点,使用适用的建模方法才能最大化数据的价值,集成学习框架可以支持不同类型模型算法作为子模型。

 

-次级模型可解释: 风控模型具有合规性的要求, 次级模型使用可解释的逻辑回归模型使得预测在申请人各维度上可解释。

 

-预测能力强: 可以高效、准确的处理稀疏超高维的数据,进行非线性建模, 且单一模型预测能力有限,“好而不同”的模型集成效果卓越, 更好的预测和更稳定的结果。

 

-容错能力强: “好而不同”的模型集成效果更加稳定, 具有更强的容错和抗扰动能力。

 

-特征工程高效: 复杂模型对特征缺失和特征冗余等问题容忍度高, 大大简化了繁琐的特征工程, 提高了模型开发和迭代效率。

 

-迁移能力强: 单独领域的子模型可以快速迁移应用到新业务领域,实现快速成型和持续优化。

 

氪信行为语言处理技术( Behavior Language Processing),经上百家客户验证,在金融风控场景下成效显着,解决了当前金融行业特别是信贷业务场景中,强特征数据少、弱特征数据多且特征维度高的问题。下面分别从行为事件流、时序轨迹、短文本知识抽取、对话特征抽取、基于网络的关联特征提取等方面详细阐述BLP技术,最后,介绍氪信怎幺使用“模型解释器”嫁接“黑魔法AI技术”和金融业务之间的沟壑。

 

BLP技术详解:

 

1.行为事件流时序模式特征提取框架

 

用户使用移动设备的行为习惯,比如所谓的碎片化时间,跨屏行为,聊天、看视频、查询信息的切换,对不同类型广告的点击兴趣,优惠券的敏感度等,不仅为移动营销提供了决策依据和支持,也越来越广泛地应用于金融科技领域。

 

用户与移动设备端金融产品app的交互中,可以反映一些有用的特质。比如从广告流量接入并快速申请贷款的客户,往往是新奇性较强,或贷款意愿较强的客户;而一个有多次登录,且多次浏览贷款详情页面的用户,在浏览时有频繁滑动的移动行为,可能说明他的贷款意愿不强,但在某个时间点触发了贷款需求。通过用户的移动行为,我们往往能捕捉到用户贷前行为的习惯、动机和目的性等潜在特征。

 

然而,这种行为流数据(如用户在页面停留的时间, 在屏幕上点选的次数等),大多是结构化较弱、维度较高的数据,相较于传统的征信或强风险数据(如是否有房有车等),其数值特征很难被直接利用。

 

 

【传统机器学习模型输入】

 

面对行为数据流的非结构化、高维度特征,传统模式遇到了挑战, 譬如传统数据处理的方法会对以下类型的行为序列力不从心:

 

事件类型: 点击,

 

事件页面: 申请页面,

 

点击位置: 贷款提交按钮,

 

开始时间: 2017-10-03 5:10:13

 

结束时间: 2017-10-03 5:10:16

 

IP:101.3.56.77

 

GPS位置: (120.43, 32.25),

 

设备剩余电量: 1374 mph

 

【事件流序列举例】

 

如何从行为流数据里提取特征变量或者具有风险识别能力的pattern成为一个难点。 在氪信,为了解决如何应用好用户行为流数据这一难题,氪学家提出了一套结合“RNN-循环神经网络”和“马尔可夫事件概率场”叠加的 卷积神经网络 的深度学习结构,从移动端有效抽取可反映行为风险的因子,从而相比较传统的特征工程结合树模型有更好的风险预判效果。

 

在2009年的ICDAR上(文档分析与识别领域公认最重要的国际学术会议),以LSTM(长短期记忆网络)为代表的RNN-循环神经网络,验证了图像文字转写的有效性,此后,RNN-循环神经网络在多种序列数据(如语音、文本处理)上都被试验,并在一些应用上(如文本转写,多语言间翻译)上取得较大的突破。

 

RNN-循环神经网络,通过重复“学习”事件流中的“事件”,从内部的隐状态来抽取流数据中有价值的信息,LSTM又在这基础上,通过添加输入门,遗忘门, 输出门,完善了RNN会“遗忘”历史数据,“偏心”最近数据的不足。其网络结构来会不断传递“历史”的信息,并适当“遗忘”当前的信息,来平衡序列模型所常有的“过早的数据被遗忘,最近的数据被过分注重”的问题。

 

 

LSTM 循环神经网络的示意图

 

在氪信,科学家们发现,在较为常规的LSTM申请网络来获得序列数据中的信息之外,还可通过马尔科夫概率的理论,将事件流抽取成事件间转换概率的矩阵(即马尔可夫矩阵),再利用CNN在图像上的优势来抽取更多的信息。

 

 

【事件间发生流转为马尔可夫概率矩阵示意 (下简称MTF)

 

相较于RNN“一个个按顺序的”学习方式,集合CNN在MTF可学到更多的全局信息。在将LSTM为核心的RNN神经网络和CNN结合MTF的网络结构通过MLP(多层感知)合并之后,结合了他们在全局和事件流的优势,因而在BLP的实践中获得了显着的效果,且该套方法论在国际学术界也受到了认可,氪信根据其发表的文章Sequential Behavioral Data Processing Using Deep Learning and the Markov Transition Field in Online Fraud Detection,也被KDD 2018收录。

 

 

【事件流网络结构示意】

 

Ruinan Zhang, Fanglan Zheng,Wei Min. Sequential Behavioral Data Processing Using Deep Learning and the Markov Transition Field in Online Fraud Detection , Accepted by KDD 4th workshop on mining and learning from time series

 

https://fintech.kdd2018.a.intuit.com/papers/DSF2018_paper_zhang.pdf

 

2.Spatial Trajectories 地理位置画像

 

如今的移动设备金融产品app,除与app本身的交互外,也越来越关注用户本身的日常活动信息。其中所在地理位置,往往能反映用户自身很多有用信息,比如是个私家车用户,或是个惯用公共交通系统的用户;亦或说是在世界各地穿梭的商务人士,还是只在一座城市奔波的老司机。

 

通过推断用户的行为背景,以及习惯停留的位置分类,可以抓住用户的潜在风险特征。但是,此类地理位置信息(如经纬度),面临存在噪音,稀疏,有确实地理信息的数据少(一般需要用户主动check in)等特点,相对简单的利用方法有限。通常只能依靠使用人工设计的特征,缺点是非常耗时并且需要特定领域的知识。而即便具有专业领域知识,也很难捕获适用于大部分用户背景的所有相关特征。氪学家们因此而提出使用深度学习+人工特征框架,集成于用户位置分析。

 

深度学习框架主要参考DeepCity(Pang,2017)与DeepWalk(Perozzi,2014)。目标是使用unsupervised embeddings来保留用户信息以及用户和位置的相邻信息。DeepWalk可以对上下文做类似graph2vec的unsupervised embeddings:图的节点对应单词,通过在图上随机游走生成语句,再借鉴Word2vec算法下的skip-gram获得unsupervised embeddings。类似的,可以将用户与具体位置基于二分图组织,图上的节点对应用户(u)或具体位置(v),在构建好的图上(有目标指向的)随机游走。

 

例如现在有用户1(u1)和用户2(u2),另有地点v1(Supermarket),v2(Office),v3(Sandwick Shop),u1已知在地点v1 check in 5次,在v2 check in 5次;u2在v2 check in 4次,在v3check in 1次,若by用户赋予权重,v1与v2对u1的权重则都为0.5,v2与v3对u2的权重为0.8,0.2。若by 地点则分别是v1u1 = 1、v2u1 = 0.56、v2u2 = 0.44、v3u2 = 1,由此二分图构建完成。

 

 

用户与已知check_in的位置的关系(右:次数,中:by用户加权,左:by位置加权)

 

由于大部分获取的数据没有确切位置信息(大多location数据仅有经纬度这类信息),并不能直接处理成特征或放入深度学习框架,需要采取对经纬度作Geohashes 编码,应用osm(OpenStreetMap) ,对graph2vec训练结果降维获得信息更密集的矩阵并加工成特征。在非深度框架特征上,氪信一方面会对经纬度聚类,以专家经验提取聚类特征,一方面匹配各类语料库,如小区房价,工作场所类型,推测该用户的经济水平这类强金融特征,对深度学习特征与人工特征在模型层集成后,最后套用一层逻辑回归模型作为输出。

 

 

【时序轨迹显式特征提取框架概览】

 

通过上述特征框架,在寻找地理位置数据的潜藏信息上,专业领域知识和机器自主挖掘能力发挥了各自的长处,前者负责抓住最基础的信息,后者负责高效无风险的尝试各种信息组合,我们认为如此才能有效的做到用户的背景分析以及风险预测。

 

3.基于层次向量表征的短文本知识抽取

 

在自然语言处理领域,处理海量的文本文件最关键的问题之一就是把用户最关心的问题提取出来。而无论是对于长文本还是短文本,关键信息的挖掘能够帮助我们更加准确和高效的理解和分析文本。有了关键信息,我们就能够理解一句话的核心思想,进而提取相关的特征,训练模型。因此,关键信息提取在文本挖掘领域是一个很重要的部分。

 

在金融风控领域,有大量文本类型数据的价值长期未被挖掘,文本数据却是用户意图最直接的表达,蕴含着丰富的金融信号。那幺,如何从这些短文本(short text)当中精准高效得抓取信息(information)就是一个必然要被解决的问题。

 

一个行之有效的方案,便是从训练用的短文本当中抽取模板,再用这些模板构建知识库(knowledge base),并以知识库作为基础进行短文本的理解和信息的抓取。抽取模板,即指把文本的句式、结构找出。例如:

 

您好,欢迎致电某某银行,我们近期推出某某产品,年化利率可达 6%。

 

当中的模板便是:

 

您好,欢迎致电 {bank},我们近期推出{product},年化利率可达{profit}。

 

当中的 {bank}, {product}和{profit}是一些关键信息的标注。

 

图1:知识库结构

 

在抽取所有模板以后,会建立一个如图1所示的层级化(hierarchical)的,矢量化(vectorized)的知识库。其中的矢量化,是指知识库会通过保存关键信息标注的范式(pattern),来将语义结构相关的信息引入知识库;而层级化,是指知识库会自动建立多级索引,以方便模糊查询的需求,具体应用过程见图2:

 

 

图2: 知识显式抽取框架概览】

 

从实验的结果来看,该算法有效得提高了信息抽取的准确性(基于RE采用这套算法),并且,信息抽取的稳定性也得到了提高,即:建立的语料库在面对语料的变更时,准确度的下降被有效得遏制。这样可以减少知识库的迭代和升级次数,有效节约时间和人力成本。与使用繁琐的正则方式相比,结果如下图:

 

 

图3: 实验结果分享】

 

总的来说,这套用于短文本信息抽取的框架,既引入了语义信息,又有工程方面的考量。在提升了信息抓取的准确度的同时,也增强了构建的知识库的容错能力。为提供更精准有效的信息抓取以及更高质量的画像做出了贡献。该技术方案不仅在氪信的行为数据处理产品中被验证显着提升模型的性能,也被机器学习顶级峰会KDD2018所认可。

 

Jiali Chen, Muxin Zhou, Ruixia Li, Wei Min . 2018. A Hierarchical Vectorized Representation of Knowledge Base for Short Text Based Financial Fraud Detection,  KDD  DATA SCIENCE IN FINTECH

 

https://fintech.kdd2018.a.intuit.com/papers/DSF2018_paper_chen.pdf

 

4. 对 话系统特征抽取模型框架

 

氪信拥有服务大型金融机构的丰富行业经验,在将技术融于金融场景的过程中,我们发现很多信息丰富度极高的数据并不能被结构化的特征提取方式所抽取——比如业务中留存的客服语音,除了用户行为信息数据,也包含了大量能够识别用户信贷风险的信息。

 

在传统金融机构中,对这部分信息的利用只能依赖于业务经验丰富的客服人员、业务人员的感性分析,但无法对这样非结构化的数据进行定量的特征抽取。氪信在与客户深入交流并且深度挖掘了这部分数据后,提出了X-Encoder作为特征提取框架,量化抽取交互式问答文本中隐含的用户信贷风险特征。自然语言处理任务通常较为复杂,而在客服语音这样的交互式文本中,客服与用户之间动态的语意变化,更是使得自然语言处理任务的复杂度呈指数级上升。工业界、学术界的大牛们因而提出了各种各样基于机器学习、深度学习的技术,旨在降低交互式文本的复杂度。

 

X-Encoder是基于很多工业界与学术界的尝试,删繁就简,利用 卷积神经网络 ,借鉴自编码的网络结构,如下图:

 

【X -Encoder  网络结构概览】

 

通过客服人员、用户双方的语音文本作为网络结构的输入输出进行交互训练。输入文本经过在全量文本上训练的word2vec转换,降维成较低维度、信息密度更高的矩阵,并通过训练编码器和解码器、拟合输出文本的word2vec矩阵,使得中间层能够更好地表达由输入至输出的语意转换逻辑。

 

X-Encoder作为一个交互式文本的特征提取方式,从稳定性和容错性的角度,借鉴了业务人员的感性思路,从整体的文本用词、句法层面,判断用户的信贷风险,弱化了客服人员与用户在互动的过程中语意发生的过于细微的偏移。这基于自编码网络结构的魅力——在无法评估中间层特征提取质量的时候,将特征的质量问题转化为解码后的输出质量,使得整个网络在逻辑上具有连通性。

 

同时,为了保证交互双方语意信息提取的全面性,我们通过构造两个网络并交换输入输出的方式,从客服人员和用户的角度,分别提取压缩后的语意。在训练好网络结构后,我们分别从两个网络中抽取中间层特征向量作为文本的表征向量进行后续建模。对于X-Encoder的特征评估,我们比对了多种特征提取方式与X-Encoder提取特征的信息度,如下图:

 

 

【X -Encoder  实验结果分享】

 

利用人工经验提取文本内容的特征iv量级在0.1左右,方式略强于通过暴力LDA提取文本信息,但这两种方法都远远低于利用X-Encoder构建的深度学习特征提取框架。这样的信息度对比也能体现在固定测试集的多特征集评估结果:基于X-Encoder的深度学习框架所提取的特征,在单独进行催收模型训练时可在外推集上达到0.311的ks,效果远超于人工特征+LDA特征的0.201的模型ks。

 

我们通过大量实验发现,从长远角度看,利用先进的技术进行文本非结构化特征提取,可以显着补充业务人员的经验特征,提升效率和效果。在人工智能迅速发展的今天,相比于希望利用人工智能解决一切问题,我们更关切的是如何利用技术释放不必要的资源负担。目前,氪信在对话数据的价值挖掘上已经有了进一步的发展,但X-Encoder作为基础的网络模块有着显着的效果。X-Encoder也被数据挖掘顶级峰会WSDM2018所录取,得到学术界的认可。

 

SongTao Jiang, Wei Min, and Qiang Gao. 2018. Q&A Feature Extracting Framework for Online-Lending Collection Risk Modeling with X-Encoder: Abstract. In Proceedings of WSDM workshop on Misinformation and Mis- behavior Mining on the Web (MIS2)

 

http://snap.stanford.edu/mis2/files/MIS2_paper_27.pdf

 

5.基于图挖掘的关联风险特征提取框架

 

伴随银行消费贷和现金贷、消费金融公司等大举入场,消费贷的风险有升高趋势,虚假申请、串联交易、团伙欺诈、套现洗钱冲击的可能性在加大。传统风控做法采用的风险评分模型主要针对个体特征,利用评分卡或者集成模型的技术预测个体欺诈概率,而难以实现对每个申请用户从个体风险到群组风险、关联风险的全面把控——比如通过顺滕摸瓜的方法捕捉到身份伪冒盗用、团伙欺诈、群体攻击等风险。

 

在氪信深耕“AI+金融”领域的实践中,我们尝试打造全域金融知识图谱的解决方案,实现从个人风险特征到全局网络风险的把控。作为氪信独创的行为语言处理技术(BLP)的重要组成部分,基于关联风险网络的特征提取框架,在很大程度上解决了上述问题,有效提升个体风险特征模型效果,为反欺诈实践提供新动力。而过程中也遇到了目前行业内通常面临的网络构建、网络特征提取、网络特征建模等技术难点。

 

 

【基于网络特征的提取和建模框架】

 

以上是我们的实践方案,包括以下几个步骤:

 

Step 1 数据收集与网络结构抽象

 

在获得申请人授权的情况下,我们通过对历史申请件关联数据,比如申请人填写申请书资料、人行报告查询信息、申请人移动端行为等,进行预处理,从而筛选出构建网络模型所需的结点、边、结点的属性、边的属性等。

 

由于双模网络相较于单模网络更具有可解释性,且相较于复杂网络模型有更成熟的图论技术知识积淀,我们应用双模网络结构进行网络构建,网络结构如下图所示:

 

【双模网络示意图】

 

即网络中仅包含两种类型的结点:其一为我们定义为申请件结点,用于唯一定义一笔信贷申请;其二为信息结点,用于跟踪与申请相关的其他信息,如身份证号、邮箱、电话、地址、设备等;

 

相同类型的结点之间不能直接相连,而是通过另一种类型的结点进行关联,例如,通过申请人申请手机号关联申请件与手机号结点这两个结点,通过申请人公司地址关联申请件与地址结点这两个结点等;

 

此外,我们还可以在结点和边上定义各自的属性,用于反映附带信息,如对于申请件结点,可定义的属性有信审决策(如通过或拒绝)、审批额度、发卡后表现(如逾期或正常)、欺诈与非欺诈申请时间等;对于边,一方面我们定义边的时间属性用于刻画该关系的有效时间,另一方面,我们定义权重来描述该关系的强度。

 

Step 2 网络预分析

 

如何确定预定义的网络结构是有效的呢?我们可以通过计算连通性指标和同质性指标进行分析:连通性指标,用于刻画网络的稠密程度,该值越接近于1表征网络越稠密,稠密的网络更有利于欺诈标签的传播;同质性指标包括同质性检验(Homophilic Test)、Dyadicity和Heterophilicity,通过Homophilic Test和Heterophilicity,可以反映网络中欺诈与非欺诈申请结点的关联紧密程度。Heterophilicity表示欺诈与非欺诈结点之间的关联密度,若Heterophilicity<1,则表征与随机网络相比,欺诈与非欺诈结点的关联稀疏。Dyadicity描述欺诈结点之间的关联紧密程度,Dyadicity>1表征与随机网络相比,欺诈结点之间的关联紧密。欺诈与非欺诈结点关联稀疏,而欺诈结点间关联紧密的网络,更具有挖掘价值。

 

然后,对图数据中各信息结点,按关系类型分类分别计算各信息结点的中心度,通过Head-tail-break算法快速剔除与预测目标无关的中心度极大的结点,筛选出构建双模网络模型所需的结点。

 

最后,根据筛选出的节点、边、节点的属性以及边的属性构建出双模网络模型。

 

Step 3 网络风险特征提取

 

我们计算三种类型的网络风险特征:局部网络风险特征、全局网络风险特征以及专家风险特征。

 

局部网络风险特征,用于描述申请件邻居结点的统计类特性,包括邻结点风险特征、四角形风险特征和局部聚合系数风险特征等,如当前申请件关联的欺诈申请件个数、当前申请件关联申请件中欺诈申请的比例等;

 

全局网络风险特征,用于描述当前申请的风险情况,在通过图挖掘算法得到各结点的欺诈概率之后,可计算如下特征:当前申请的欺诈概率,邻居结点(一度关联的信息结点)欺诈概率的最大值、平均值等;

 

专家风险特征,常根据业务经验进行定义,如不同渠道个人信息重合度比对、个人信息与网络一致性检验等。

 

Step 4 网络模型与个体模型的集成

 

针对网络特征与个体特征分别建立反欺诈模型,并在此基础上进行复杂模型集成,从而获得综合网络群体风险和个体风险的信贷申请人欺诈概率预测。

 

实际应用中,我们还可以利用社区挖掘算法如标签传播算法(Louvain Modularity算法)等,定期计算各社区的欺诈风险,主动预警疑似欺诈圈子;通过网络可视化平台,风控专家可实时对每一个申请用户、身份证号、电话、地址、公司名称等方式实时查询网络,从个体风险识别判定到群组关联风险做研究,挖掘识别新的欺诈模式,跟踪对比欺诈模式的演变,将人工经验与社区挖掘算法及机器学习模型相结合,不断地迭代优化模型,实现对全局风险的把控。该研究工作被WSDM2018所收录。

 

Wei Min, ZhengyangTang, Min Zhu, Yuxi Dai, Yan Wei, and RuinanZhang. Behavior Language Processing with Graph based Feature Generation for Fraud Detection in Online Lending. 2018 WSDM workshop on Misinformation and Misbehavior Mining on the Web

 

http://snap.stanford.edu/mis2/files/MIS2_paper_26.pdf

 

6.模型解释器

 

2018年上半年,欧盟推行的号称“史上最严”的数据保护条例——通用数据保护条例(The EU General Data Protection Regulation,GDPR),让机器学习算法和模型的可解释性问题被置于聚光灯下,得到了人们前所未有的广泛关注。然而,其实在金融领域,预测结果的可解释性长期以来一直都是一个重要的话题。

 

例如,当银行要发放一笔贷款时,为了确保贷款申请人有足够的偿付能力,必须要对申请人的资质进行充分调查,从贷款人填写的申请表中筛选出与偿付能力相关的关键信息,再利用这些关键信息来决定贷款的发放与否。比如申请人有稳定工作会成为加分项,申请人有信用不良记录可能成为减分项。在这里,银行所作的是否贷款的决定就是通过这些关键信息来获得可解释性。可以想见,如果银行通过贷款当天的天气因素来决定放贷与否,那幺这样不可理喻的贷款得到偿付的可能将大大降低。因此,可以说对结果的可解释性确保了整个银行贷款业务的风险可控。

 

金融领域普遍使用的线性模型虽然有着相当好的透明性和可解释性,但是比起更复杂的机器学习模型,其在预测精度上就有所欠缺。相反,决策树、集成模型以及深度学习模型虽然能取得模型精度的大幅提升,但却基本都是“黑箱”模型,在可解释性上面临重大挑战。

 

以模型结构相对简单透明的集成树模型为例,树模型在模型训练的过程中本身就会根据特征的信息增益情况来构造切分节点,所以其训练得到的模型结构天生带有某种特征重要性信息。然而,当我们分别利用特征节点的数据划分次数以及平均信息增益来计算特征重要性时,同一个模型却可能得到完全不同的特征重要性结果。可以发现,这种直觉式的模型解释方式并不可靠。

 

 

【利用数据划分次数得到的特征重要性】

 

 

【利用数据平均信息增益得到的特征重要性】

 

除此之外,这种从训练数据中提取出来的特征重要性是一种模型的全局解释,对于我们理解每一个预测结果的个例并没有帮助。我们可能通过特征重要性了解到年龄这个变量对预测结果有重要影响,但我们不能确定一个客户的年龄到底对预测结果的产出起到了积极的作用还是消极的作用。

 

氪信通过BLP行为语言处理技术,利用移动行为弱数据建模,为金融信贷风控提供强力支持——机器学习和金融风控领域的结合对模型的精度和可解释性两个方面都有着极高的要求,因此我们集成了现阶段最成熟和最先进的基于Shapley Value的特征贡献度累加算法(SHAP)在集成树模型中的应用, 对我们在金融场景最常用的Boosting Tree 集成模型的预测进行解释, 得到单个样本特征线性可加的贡献值。

 

氪信使用的SHAP算法为当前最先进的模型解释算法,它是基于博弈论构造出的唯一的兼顾一致性与准确性的特征归因方法:

 

1. 一致性。当模型发生变化,使得整体模型更依赖于某个特征时,该特征的贡献度不应该降低。

 

2. 准确性。所有特征重要性的总和应该等于模型的总重要性。

 

SHAP值是将模型的输出当成每个特征加入到条件期望中带来的作用。对于非线性的模型,特征加入模型的先后顺序将会影响到模型的效果,SHAP就会将所有可能的特征顺序都进行考虑,最终取平均值。而其在集成树上的近似实现算法确保其能在多项式时间复杂度而非传统的指数时间复杂度下计算出Shapley Value。

 

 

【S hap 算法】

 

但是,由于Shapley Value在稀疏特征上的一些局限性,氪信科技在模型解释引擎中增加特征知识图谱映射模块, 可以在不同特征领域级别上, 线性叠加该领域级别特征贡献度。

 

解释器具体的工作机制如下:

 

 

【模型解释引擎架构图】

 

当我们得到一个用户的行为数据之后,利用BoostingTree 集成模型得出预测结果。同时,SHAP算法通过解析集成模型结构,并平均所有可能的特征排序的预测差异,对用户具有的行为特征分配线性可加的预测结果贡献度。在得到单一特征的结果贡献度之后,通过评分卡的线性映射模型将特征贡献度映射到信用评分贡献度。最后,根据金融风控专家总结的特征知识图谱,对特征的信用评分贡献度做基于特征领域级别的聚合,进一步帮助业务决策人员在大量行为领域中找到影响用户信用评分的关键行为。

 

 

【模型解释引擎输出结果】

 

可以看到,在实际应用中,模型解释器可以清晰的反映出每个用户行为特征对于用户信用评分构成的影响。这一方面有助于业务决策人员理解问题, 通过建模习得领域知识,另一方面也能帮助领域专家通过业务经验有效评估模型, 并且进一步优化模型构建。

 

结语:

 

中国的个人消费贷款近年来呈现爆发式增长,根据中国人民银行的统计口径,截至2018年8月,金融机构个人消费贷款已达35.64万亿元,其中房贷仍占大头,超过20万亿元,而短期消费贷规模超过了8万亿元,为2014年末的两倍多。如果按照市场理解的消费贷口径(即银行消费贷、信用卡贷款、消费金融公司以及各类互联网金融公司现金贷和消费分期业务的总和),广义的消费贷规模约15万亿元。与此同时,国内只有1/3的消费者有传统的信贷数据,面对下沉客户以及长尾市场,如何在控制风险的同时撬动剩下的2/3消费者人群?答案是金融科技。

 

而移动互联网的发展,为其提供了着力点:根据第42次中国互联网络发展状况统计报告,截至2018年6月,我国网民规模达8.02亿,普及率为57.7%,其中,手机网民规模达7.88亿,网民通过手机接入互联网的比例高达98.3%。

 

氪信BLP行为语言处理技术,即是在这一宏观背景下产生,它发轫于世界领先互联网公司的AI技术和经验,并应用于金融这一高度数据化的行业。为AI如何应用于金融行业,提供了一种范本。通过对比传统风控方法和BLP技术在风控中的应用, 可以明显看到BLP的优势, 特别是在当前普惠金融的大市场环境下, 针对在线人群信贷风控有着明显的优势: 更准确, 可以更好地刻画在线人群属性与预测目标之间的非线性关系; 更高效: 减少特征程的复杂度, 提高模型开发的效率, 有效捕捉在线人群快速迭代的欺诈模式; 更完整: 可以更好地捕捉个体风险以及群体欺诈风险。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注