Press "Enter" to skip to content

【交易技术前沿】构建在知识中台基础上的企业画像

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本文选自《交易技术前沿》总第四十期文章(2020年9月)

 

齐伟 / 恒生电子股份有限公司 咨询事业部 [email protected]

 

现状

 

金融行业是信息驱动的行业,金融机构对用户的营销服务、适当性管理催生了用户画像业务;对投资标的的投研风控的分析、资产配置的要求,催生了产品画像业务;对新闻资讯的精准搜索、个性推荐需求,催生了资讯画像业务。无论用户画像、产品画像、资讯画像,其依赖的数据主要是金融机构内部的经营数据,包括用户在金融机构端的行为数据、账户数据、交易数据、行情数据等等。这些数据基本上都是结构化的,数据价值密度高,形成一个有效果的画像一般只会面临工程层面的问题。

 

当前,金融机构对画像业务的关注点正在转向企业画像,一方面这源于大数据投研风控的需求,对于股债基等等投资标的基本面研究,需要从投资标的对应的企业的分析入手,甚至于孤立的企业分析也不太够用,还需要从企业所处的产业角度去发现一个公司的价值与风险。另外一方面,企业也是我们金融机构的客户,VC、PE、企业投融资等金融业务的开展,需要企业尽调、合规监管的审查,对于企业客户的营销服务也需要对企业客户做画像。无论是基于产业的投研风控分析还是对企业客户做金融业务的营销服务,都会涉猎到大量非上市公司。企业画像的难点就在于对这些非上市公司的打标以及关联分析上。

 

传统方法

 

基于标签的画像方法是当前画像系统的主流技术,给企业打一组标签,每个标签给一个权重,把这些信息整合在一个工作界面上构成企业全息信息视图,同时提供检索、分析、报表等功能,一个画像系统就算完成了。这类软件或者平台,有个共同技术支撑平台:一个是画像门户,一个是打标平台。

 

 

画像门户是数据展示的端,天眼查、企查查就是这类软件。打标平台则是其核心后台技术。打标平台是一个一站式解决方案,方案涉及标签元数据管理、标签模型、算法的支撑、标签的二次开发、标签挖掘以及标签管理等内容。标签作为画像系统的核心服务,又分为基础标签、规则标签、模型标签、预测标签几个维度。基础标签比拼的数据源的多少与质量;规则标签是对基础标签的规则化处理,主要靠专家来制定规则,泛化能力有限;模型标签,是通过机器学习建模,对某类标签进行有监督或者无监督的计算方法,比如通过聚类方法实现用户的自动分类;预测标签是对某种业务属性的一种预测,诸如商机预测、风险预警都属于这类标签。相对于模型标签的模式识别,预测标签则代表对未来某种潜在标签达成的概率预测。模型标签和预测标签是比较有技术含量的标签体系,是引入大数据或者大数据处理方法的一种泛化。

 

问题

 

大数据多源、异构、数据价值密度低、数据质量参差不齐,基于这样的数据环境,企业画像面临诸多问题与挑战,与依托金融机构内部数据的用户画像,有着本质不同。企业画像面临的问题有数据问题、业务问题和技术问题,接下来我们逐一详解。

 

数据问题——数据治理的问题

 

从工程实践的结果上反过来分析,金融机构关注的企业画像所需信息包括几个维度:1)企业基础信息,包括董监高行业地域规模等等;2)股权层面,质押、担保、对外投资、实控人、受益人、资本系等;3)产业层面:主营产品、细分行业、供应关系以及上下游等相关信息;3)新闻舆情:包括新闻资讯、舆情传播、事件影响等;4)另类数据包括司法诉讼、专利、行政处罚、政策法规、监管问询等等。

 

上面所列数据从数据来源来说难点主要两个方面,一个难点是产业链数据,申万28个行业,细分子行业是2+N的层级,加上国际统计局的GIS产品标准和类目,随便一个行业其涉及到的行业细分产品的数目可能就会达到万级,关键这些数据还是动态更新的,需要按需修订。另一个难点是舆情画像,我们知道做舆情的企业动则监控几万的站点,几十台上百台的服务器日夜无休的爬取各类数据。还要随时面对网站改版、安全策略更新等突发情况。

 

以上这些数据基本来源于工商数据、行业数据、政府公开数据以及其他另类数据,相对于金融机构内部数据,可以说是真正的多源异构,如何将这些信息有效的关联起来本身是一项非常有挑战的工作。拿产业链数据来说,市面上做产业链的公司几十家应该是有的,而且因为其行业分析师的行业出身不同,导致每家只做了1、2条实际可用的产品级产业链,每家数据标准、业务标准都不统一,将这类数据集成在一起的时候,如果用数据中心的统一资讯的方法,会非常灾难,那些产品类目的对齐就是一项难以完成的工作。标准化容易工程落地难!

 

业务问题——知识转化与沉淀的问题

 

企业画像有待解决的业务问题主要体现在企业大数据与企业金融分析之间的业务鸿沟。以股权数据为例,我们可以轻易的从工商数据中获取到相关股权数据,经过简单加工处理,也可以获取一份清晰的股权链路图,即我们通常所说的股权图谱。很多工商数据的厂商对股权数据加工基本上止步于此。但金融行业对股权的加工是有明确要求和目标的,“人行235号文“对基于股权数据的疑似受益人、实际控制人在关联人、股权比例、企业类别方面有明确要求,很显然简单的股权链路无法满足金融行业的要求,我们需要按照金融场景来定制处理。这就带来了面向金融行业的企业画像的一个业务难题,就是什幺样的标签和关联分析是符合金融场景需求的?这不仅仅是大数据处理的问题,也涉及到大量的金融专业知识,所以,金融行业的企业画像是很有必要引入专家经验的,所以人机如何协同?专家如何将金融知识落地沉淀到企业画像系统,也是画像系统要解决的问题。

 

技术问题——算法模型的天花板

 

企业画像因为没有金融机构内部行为数据的支撑(至少是冷启动建设开始的事实是这样),所以画像标签面临不完整、不准确的问题。标签不完整是源于很多非上市公司数据来源非常有限,极端情况下我们只能拿到其工商数据,那幺我们定义的画像各种数据维度的槽,是无法填充掉的,传统打标平台无法解决这块信息的补全。标签的不准确表现的为缺乏背景知识的语义理解不准确,举个例子,如果某篇资讯通篇在提光缆、通信设备、基站以及车联网相关的话题,那幺我们在给与上述实体标签基础上,最应该打上还有个“5G“,即便文章中并未提到5g,但事实上,文章内容是对5g产业链的一个综合性描述,而机器(打标软件)如何知道5g跟那些关键词的对应关系的呢?这就需要我们赋予“机器”一个5g产业链的背景知识。很显然,单纯的机器学习模型哪怕是预测模型也是解决不了这类标签准确性问题的。

 

对于一份数据稀疏的企业大数据,用传统机器学习方法打标,很快还会遇到一个算法的天花板。当下工程界大家的算法和调参基本处在同一个起跑线,语料是决定算法结果质量的关键,企业画像数据过于稀疏、数据价值密度低,使得我们从显性数据里获取的语料非常有限,好在我们知道在显性数据背后还有很多隐性数据关联,类似实控人这类标签业务,就是有效关联带来的成果。那幺问题是,我们如何发现这些隐性关联,以及这些关联后的新知识呢?

 

应对

 

要想解决上述问题,我们需要引入知识图谱技术,并且在工程实践中做出3个思维方式的改变:1)基于过程的分析转向基于领域的分析,这主要应对的是企业画像的业务问题;2)基于显性ER关系转向隐性关联关系的发现,这点主要应对的是数据问题;3)基于ER数据的模型走向基于语义的模型,这点应对的是算法模型的天花板问题。

 

基于过程的分析转向基于领域的分析

 

我们现在做画像业务主要是两种模式:一个是数据驱动,意即有什幺样的数据画什幺样的画像;一个是场景驱动,就是有什幺样的场景,找什幺样的数据,再画什幺样的画像。为了解决前述分析的企业画像系统的各种问题,我们需要引入第三种模式即“领域驱动“的模式。无论是数据驱动还是场景驱动,都是过程驱动,数据落地表现为一个个ER关系图,要幺是从场景中找到对应的表结构,要幺从现有数据ER结构推出新的画像ER结构。领域驱动要解决的问题则是要把ER关系转化为语义网络关系,把表与表之间的关键字连接,变成表中描述的实体与另外表中描述的实体建立语义上的连接。这种转变就是过程转化为领域的过程。我们看个具体的例子,我们可以将企业在产业中的信息用ER关系进行表达,于是会形成企业信息表、企业关联行业表、企业主营产品表,如果我们寻找到新的数据源,比如企业供应关系,那幺增加一张表就解决问题了。这样一个ER关系如果转化成领域图,那幺就是一个产业链的知识图谱,这张图里有企业、行业、主营产品、供应关系、上下游等数据结构,所有数据表达采用统一的模式图”三元组“,形成的就是产业链知识图谱。面向过程的ER图的使用,需要人来找数据用数据,而面向领域的产业链知识图谱,既可以作为行业分析人员的背景知识,更重要的是,基于三元组的语义网络的数据组织形式,是可以让计算机理解产业链数据,进而可以产生机器认知的某种能力,诸如知识推理、知识补全等等,这不是面向过程的数据组织方式可以提供的能力。

 

基于显性ER关系转向隐性关联关系的发现

 

当我们的思考角度能够从基于过程的分析转向为基于领域的分析之后,我们就有能力从显性ER里发现隐性关联关系。这种转变,对于企业画像来说,意义重大。1)我们具有了发现新数据/新知识的一种能力,就像我们在股权关联里隐藏了实控人,产业链里隐含了行研逻辑一样;2)我们自动有了新的标签。对于标签系统来说,知识图谱的schema就是一个丰富的标签库,schema描述的实体间的关系,以及实体属性、关系属性,本质上都是对某个实体的标签描述,甚至于1度、2度关系也可以是某种标签描述;3)通过实体在知识图谱关系网络上的漫游,我们可以为标签理解增加了大量的背景知识的同时,也为标签系统提供了语料数据,为机器学习增加了大量的可选择特征和样本数据;4)通过图分析、推理和挖掘,我们可以让计算机来参与到标签发现、知识发现和数据关联发现的工作中来。

 

基于ER数据的模型走向基于语义的模型

 

我们将画像业务从基于过程的分析转变为领域分析后,需要借助知识图谱做工程落地,有了知识图谱,我们就可以利用知识推理、挖掘、发现、关联,从显性ER关系获取更多的隐性数据关联。也可以将专家逻辑跟AI逻辑做统一整合。进而,企业画像系统依赖的机器学习标签、预测标签,可以从基于ER数据的模型,走向基于语义的模型。机器学习可以理解为聪明的数理统计模式识别的方法和工具,而知识图谱可以赋予机器学习大量背景知识,那幺一个既聪明又有学识的AI是否能更加胜任我们的企业画像业务呢?

 

ER模型走向语义模型我们可以有几条路径去驱动:1)特征支持,图谱的schema是特征的源,相对于实体属性关系网络特征应该是区分度最好的特征来源之一;2)语料样本数据支持,图谱的三元组数据是一个个事实,隐性关联的知识也是这样的一个个事实,从而对于标签理解或者机器学习标签可以提供语料或者样本数据;3)图分析的一整套方法可以补充进机器学习标签模型里,丰富算法空间。4)基于知识图谱的表示学习可以和深度学习结合,完成更加有挑战的标签数据的建设。

 

架构

 

从工程实践的角度,我总结了如下一个企业画像的架构图。

 

 

架构要点有两个:

 

第一点:引入知识中台概念,建立“数据中台+知识中台”双中台驱动。体现在1)->信息->->智能,数据中台主要定位在“数据->信息”这个环节,知识中台定位在”信息->知识”这个环节;2)知识中台是知识相关、事实相关、关系相关的信息的再组织,它无法取代数据中台对应的数据中心,当然,如果你处理数据的主要目的就是找关系,那幺也可以绕开数据中台直接建设知识中台,但大多数情况下,数据中台和知识中台是共生的,他们合在一起是更加广义的数据中台。数据中台为知识中台提供大数据支撑,知识中台为数据中台赋能AI认知能力;3)画像系统以及其他业务系统按需从数据中台、知识中台或者原始数据中获取数据,他们不是多选一,而是多方协作;

 

第二点:知识图谱结合标签系统共同为画像系统服务。打标系统为知识图谱赋能,体现在1)指标进入知识图谱,为知识图谱中的实体和关系增加属性特征;2)指标进入图谱,为知识图谱关联分析提供边际变化,比如事件标签进入图谱后形成事件图谱,也可以产生事件传播影响的分析业务。知识图谱为打标系统赋能,体现在1)知识图谱为打标系统提供背景知识,增强打标准确性;2)知识图谱的schema实体关系属性本身输出为打标系统的标签;3)知识图谱为打标系统提供知识与事实,作为语料和标注数据。4)知识图谱的隐性关联关系又会产生新的标签;

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注