Press "Enter" to skip to content

【交易技术前沿】基于事理图谱的国债价格影响因素分析方法

本文选自《交易技术前沿》总第四十三期文章(2021年3月)

 

林越峰、高剑、苗仲辰、王煦涛

 

上海金融期货信息技术有限公司 创新实验室 [email protected]

 

近些年随着国内外经济环境日趋复杂多变,对国债期现货市场的分析监管提出了更高要求。如何从诸多时事经济新闻、专家言论中找到影响国债价格的核心影响因素并总结国债价格的演化规律,成为投资者和监管人员做好风险管理的新课题。本文结合国债价格变化的业务特点,探索通过自然语言处理(NLP)技术结合事理图谱的方法研究国债价格影响因素传导关系,以宏观、微观经济新闻作为数据源,基于因果事件对抽取、事件泛化技术形成构建国债价格上行和下行的影响因素事理图谱的方法论。最后,基于事理图谱深入分析国债价格波动的成因分析和事件演化规律总结,结果表明本文提出的事理图谱构建方法可为国债市场分析提供参考。

 

一、研究背景和意义

 

随着国债市场的不断发展以及金融市场国际化脚步的加快,国内外金融经济环境在不断变化,对我国国债市场和对应国债期货市场的分析预判提出了新的要求。在此背景下探讨国债市场价格变化的影响因素,研究各因素如何影响国债市场价格波动,不仅有助于增强投资者管理利率风险能力、稳定国债市场的价格水平,也对交易所和有关部门分析预判监测市场风险、服务国家宏观战略具有一定作用。

 

目前,国债价格及收益率受到的宏观经济影响因素较多,各类债券研报分析中不同研究专家所持观点不同,给业务人员从诸多分析中全方面的人工总结出国债价格的演化规律提出了前所未有的挑战。从金融文本中挖掘“粮食减产”导致“农产品价格上涨”,再导致“通胀”,进而可能导致“股市下跌”这样的远距离事件依赖对以事件驱动的资本市场风险预判非常有价值(如图1)。同理,国债受到货币政策、财政政策、经济基本面、市场流动性、甚至资本市场涨跌等多方面、且长短不同周期的各类宏微观因素影响,影响因素间错综复杂的关系给业务人员分析国债价格关键影响因素带来了巨大的困扰。因此,为了结合更多学者的智慧,全面客观的将各因素、因果关系纳入国债价格分析框架中,借助人工智能技术辅助业务分析成了近些年金融科技的一种趋势。

图1:股市下跌传导示意图

 

近几年以基于事理图谱为核心的人工智能技术的出现,为业务人员解决上述困扰提供了帮助。事理图谱(Eventic Graph)是2017年国内学者在中国计算机大会(CNCC)提出的新一代知识图谱 [1] ,事理图谱本质上是一个事理逻辑知识库,描述了事件之间的演化规律和模式。结构上,事理图谱是一个有向有环图,其中节点代表事件,有向边代表事件之间的顺承、因果、条件和上下位等事理逻辑关系。事理图谱的提出弥补了传统以实体及其属性和关系为研究核心的知识图谱对事理逻辑刻画的不足,它能够揭示事件的演化规律和发展逻辑,刻画和记录人类行为活动,现实世界中事件演化规律的复杂性也决定了我们必须采用这种复杂的图结构。目前,越来越多的研究学者投入到事理图谱研究中,在医疗 [2] 、住房 [3] 、金融 [4] 等领域均逐渐显露出价值。

 

基于上述分析,本文面向国内外宏观经济新闻和债券研报,采用事件表示、事件三元组抽取、事件泛化等多项自然语言处理技术,结合国内国债价格波动分析的业务特点,探索形成了构建国债价格影响因素传导分析事理图谱的方法论。基于相关方法论所构建的事理图谱不仅可为投资者分析价格波动成因提供参考,也可给相关人员根据事件演化路径开展分析监管、甚至是研究货币、财务政策提供参考依据。

 

二、国债影响因素事理图谱构建流程

 

国债价格影响因素事理图谱的构建包含数据采集与预处理、因果事件抽取,事理图谱构建3个主要环节,整体构建流程如图2所示:

图2:国债影响因素事理图谱构建流程示意图

 

2.1相关名词解释

 

影响因素事理图谱:本文构建的影响因素事理图谱属于风险类事理图谱,根源于决策逻辑,目的于风险控制,以提前总结掌握事件演化规律为前提,对未来发生的事情进行提前预知并防患于未然,它作为人们对现有逻辑知识的总结和归纳,并指导未来工作,是涉及范围最广的一种事理图谱。

 

事件:本文将事理图谱技术应用在国债价格分析领域,结合国债的业务特点,本文的指代的事件特指可能对国内国债市场造成影响的各类事件,如宏观、微观指标变动,央行公开市场操作、货币政策更新、财政政策变化等。

 

事件因果关系:事件因果关系是事件关系类型中的一种,一般是指两个事件之间,前一事件的发生导致后一事件的发生。本文假设因果关系满足原因时间在前,结果事件在后的时间上的偏序关系。因果具有传递性,即链式特性,多个匹配的因果头尾相接组成一个长链条。根据多个因果关系组成的传导链,即可得到多个导致国债价格波动的影响链路。

 

2.2 数据采集与预处理

 

数据方面结合业务人员指导,选取权威债券相关资讯2万余篇作为数据源,数据预处理环节包括采用用于海量相似文本去重的simhash算法,并使用jieba工具分词、词性标注对公开新闻进行预处理。

 

需要特别说明的是,本文作为一项技术性研究,主要采用相对权威的文本资讯所体现的因果关系直接开展分析,因此并未事先从真实业务的角度对各类文本资讯的准确性进行完整验证。

 

2.3 因果事件抽取

 

数据预处理完毕后,可通过基于规则匹配的方法识别句中的因果关系,最终形成“原因事件,触发词,结果事件”的因果关系三元组,如图3所示。

图3:基于规则模板的因果事件三元组抽取示意图

 

国债价格影响因素事件因果关系抽取方法主要分为以下四个步骤:

 

1)判断因果触发词及所在句

 

通过对多篇债券分析研报的统计分析,整理出常见的经济领域的因果连接词,如“推动”、“导致”、 “引发”等。根据标点符号断句,并找到新闻集合中因果触发词所在的句子作为原因、结果子句集合,作为下一步事件抽取的输入源。

 

2)基于规则模板匹配的事件抽取

 

本文使用基于规则模板的正则匹配方法抽取事件因果三元组,格式为<Pattern, Constraint, Priority>。Pattern 是包含因果关系触发词的正则表达式;Constraint 包含了一些句子中的句法约束,Priority 是当多个模板都匹配上时,匹配模板的优先级。具体规则模板可参考J.Qiu等[4]的相关工作,如根据模板[Cause]<Cue>[ Effect],Cue∈[带动、导致],可匹配到的一个因果对为:[地方债供给增大]、<推动>、 [国债收益率上行],通过类似这样的规则模板,我们能够获得大量的因果事件对,原因和结果的描述分别在因事件所在句和果事件所在句中。

 

3)基于依存句法分析确定事件名称

 

使用模式匹配法抽取出显式因果语句中的原因子句、结果子句后,接着需要从抽取出的原因子句、结果子句中抽取出事件并以事件对的形式表示,即抽取出因果关系事件元组,为后续构建国债价格影响因素事理图谱做好准备。

 

通过哈工大赛尔实验室开源的LTP提供的python接口工具包对原因子句、结果子句进行语句的句法结构分析和词性标注,进而抽取语句中的事件表达如图4所示,以“贸易局势紧张导致全球经济下行”为例,主语成分为“贸易局势紧张”,谓语是“导致”,宾语是“全球经济下行”;主语成分、宾语成分均为主谓结构,可以构成事件的表达。经过依存语法分析后可从该句中得到“贸易局势紧张”事件“导致”了“全球经济下行”事件。

图4:依存句法分析图

 

本文以国债价格变动的事件为研究对象,抽取出的相关因果事件用[主语,谓语,宾语]三元组和经济领域的名词短语两种方式进行表示,该事件表示方式是由国债价格分析领域的新闻特点决定的,选择用动词和名词组成的集合的形式表示事件。这样我们抽取到的事件既可以包含所有三元组(subject,predicate,object)的信息,也包含了名词短语的信息,还包含了动词短语的信息。另外还包含了其他的一些重要的名词和动词所蕴含的事件信息。这种事件表示方式基本满足要求,即能完整表达语义,并且保证结构完整,例如“央行下调存款准备金率”,“原油价格下跌”等。

 

抽取处理事件三元组结果部分节选如表1所示:

 

表1: 事件提取部分结果示例

 

 

2.4 事件泛化

 

国债价格变动的影响因素众多,如何描绘出每个影响因素的传导路径,是国债价格影响因素事理图谱构建的关键。本节通过事件泛化技术将统一具有相似表达方式的多个事件合并融合,从而“化繁为简”,使得相对独立的因果事件对链接成因果链条。

 

事件泛化的必要性在于从不同新闻中抽取到的具体事件可能同时指代同一抽象事件,这是由于每个新闻作者的撰写习惯性格不同,对于同一事件的语言表述方式因而不同,即存在不同文字表述指代相同事件的问题,如“存款准备金率下调”和“央行降低准备金率”在本研究中属于同一抽象事件“降准”,这时我们需要做的关键步骤是将具体事件泛化处理,即将属于同一类的事件归为一个抽象事件。

 

具体在实践中,我们发现抽象事件的表示方式有谓语+宾语,主语+宾语,主谓宾及其它更加复杂的模式。通过总结债券领域经济中的上位词和经济术语同义词,我们将事件中的动词和名词用其上位词或者高频同义词替换,并采用出现频次更高的组合来表征这个抽象事件,通过事件泛化操作后,不同表述的事件被归一化,使得多条因果链通过某些共有事件的交叉形成事理图谱。

 

2.5 事理图谱的存储与展示

 

最后,我们分别以事件为节点,以事件之间的关系为边存入图数据库中,经过前端渲染形成可视化效果如图5所示。

 

在构建的国债价格影响因素事理图谱中,较为完整的展示了影响国债价格的各种影响因素,并刻画出每个事件是如何演化至影响国债价格。此外,图5右边显示出因果事件对的抽取来源,红色表示因事件,蓝色表示果事件,方便业务人员核实研报中的观点是否属实。

图5:国债价格影响因素事理图谱可视化效果

 

三、国债价格影响因素事理图谱构建结果及讨论

 

本章基于上文所述事理图谱构建技术,验证通过该图谱并结合业务知识进行国债价格变动演化路径分析的可行性及有效性。

 

图6展示了结合业务知识和事理图谱构建技术生成的国债价格影响因素事理图谱,共有事件因果对358个,每个节点代表一个事件,连线代表了事件间的因果传导关系。其中,153个蓝色节点根据业务人员的已有业务知识整理而得,根据前文所述事件抽取算法得到灰色节点共有205个。不难发现,算法抽取到的节点和业务知识蓝色节点可以通过传导关系关联到一起,说明本文介绍的事理图谱构建技术可以不断丰富国债分析中业务人员可能未曾重点考虑到的影响因素,并通过事件泛化技术关联到业务人员重点关心的影响因素上,可为业务人员客观、全方位的分析国债价格波动提供帮助和提示。

 

从验证图谱的有效性角度来说,图6揭示了多条可能影响国债收益率上行的演化路径,研究者可从不同的角度出发,分析研究推动国债收益率上行的关键原因/事件节点。

 

例如,若从基本面、资金面来看,如演化路径“M2增速同比上升→通胀高于预期→货币政策趋紧→存款准备金率上调→流动性紧张→资金利率上行→国债收益率上行”可以看出货币供应量(包括居民储蓄存款,企业存款及其它各类形式)等存款指标上升会导致央行作出货币政策收紧的举措,从而引发流动性紧张,最终导致国债收益率上行。所以,投资者应及时关注每个季度央行公布的货币供应量指标,并根据同期指标进行对比,提前做好资金管理,规避后续一系列政策导致国债价格变化的后果。

 

再如,从技术面来看,图中存在演化路径“商品期货上涨→风险偏好上升→避险情绪升温→国债收益率上行”,对投资者的启示在于需要关注商品期货以及境内外股市对国债收益率的联动关系。

 

综上所述,当资本市场某一事件发生时,投资者和监管人员即可通过该图谱找到与之相关的历史事件节点,并分析该事件节点的演化路径,进而预判国债价格可能发生的波动。

图6:国债价格影响因素事理图谱

 

四、总结与展望

 

由于近年来国内外经济、政治环境日趋复杂,金融市场面临着巨大风险,对国债相关市场的分析监管提出了前所未有的挑战。因此,及时、准确且全面地探究国债价格变动的演化规律,对监测和管理市场风险具有重要的意义。

 

本文结合国债价格分析的业务特点,通过获取新闻语料,因果关系模板匹配、依存句法分析等一系列NLP技术构建国债价格影响因素图谱,实践结果表明该事理图谱的构建方法可以有效整合大量碎片化的债券资讯,形成有业务分析价值的知识结构。实证分析表明该方法论是可行且有效的,可以从技术的角度为业务人员分析国债价格波动成因提供帮助提示。

 

仍需说明的是,本文所描述的国债影响因素传导分析事例图谱仅限于展示技术算法所得到的一种或多种可能性结果,在业务的准确性和特定事件的深度分析方面仍需要不断探索实践。未来可继续通过改进事件识别抽取算法、提升原始数据的可信度与规模、结合业务知识进行迭代反馈等方法不断改进优化。

 

参考文档

 

[1] X Ding,Z Li,T Liu,K Liao. ELG: An Event Logic Graph,2019

 

[2] 单晓红, 庞世红, 刘晓燕,等. 基于事理图谱的网络舆情演化路径分析——以医疗舆情为例[J]. 情报理论与实践, 2019, 042(009):99-103,85.

 

[3]陈平升.住房价格变动的事理图谱构建方法研究[D].哈尔滨工业大学,2020.

 

[4] 丁效. 基于社会媒体的市场行情预测方法研究[D].哈尔滨工业大学,2016.

 

[5] Qiu J , Du Y , Wang Y . Extraction and Representation of Feature Events Based on a Knowledge Model[C]  IEEE/WIC/ACM International Conference on Web Intelligence & Intelligent Agent Technology. ACM, 2008.     

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注