Press "Enter" to skip to content

ACL 2021 | 找正确的实体关系,搭扎实的底层基础:联合空间下的实体关系抽取新范式

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

不知道你是否想过这样一个问题,丢给机器这样一句话:“ 刘慈欣是《三体》的作者 ”。它如何才能做到像人类一样理解: 刘慈欣 是一个人, 三体 是一本书,两者之间存在 作者 的关系。

 

这项能力其实就是 实体关系抽取任务 的终极目标——从文档中自动地抽取实体和实体间的关系。对应到上面的例子,刘慈欣是人名实体,三体是书名实体,这两个实体之间存在作者关系。该任务是自然语言处理的一个底层基础任务,其抽取结果能够服务很多上层的应用,比如 知识库构建、问答系统、信息检索系统 ,因此该任务一直受到学术界和工业界的持续关注。

 

本论文就将给大家介绍 ACL2021 上的一篇研究实体关系抽取任务的最新工作,《UniRE: A Unified Label Space for Entity Relation Extraction》。 作者来自上海交通大学 ThinkLab 实验室,华东师范大学 AntNLP 实验室和字节跳动人工智能实验室。

 

 

论文链接:

 

https://arxiv.org/abs/2107.04292

 

代码链接:

 

https://github.com/Receiling/UniRE

 

一、联合方 法的困境

 

目前实体关系抽取任务的主流方法可以大致分成两类,1) 流水线方法 ;2) 联合方法 。

 

流水线方法采用两个独立的模型分别做实体识别和关系抽取,其优势在于可以任意组合不同的模型和数据,但是存在一个严重的问题,那就是 错误传播 ,因为关系模型使用实体模型的预测结果作为输入,势必会导致实体预测的错误传播到关系模型。

 

联合方法就是为了缓解错误传播问题而提出的,其采用端到端模型同时完成实体和关系的抽取,从而增强实体和关系的信息交互。长期以来工作表明联合方法能够取得更好的结果,但是最近联合方法的地位却受到了挑战:基于预训练模型, Zhong 和 Chen [2]使用流水线方法一举超过了所有的联合方法,取得了目前最好的结果。

 

面对联合方法所处的困境,一种新的联合范式应运而生。本论文就将给大家介绍 ACL2021 上的一篇研究实体关系抽取任务的最新工作,《UniRE: A Unified Label Space for Entity Relation Extraction》。本工作的核心思想就是提出 一种定义在统一标签空间的联合方法新范式 。

 

二、联合方法的反思

 

Zhong和Chen[2]认为 实体和关系的语义是不同的,共享两者的表示会产生潜在的语义冲突,从而损害模型的性能 。作者发现这个问题的本质在于实体和关系在任务的建模中就处于两个不同的标签空间,也就使得二者的语义空间无法对齐,从而流水线方法这种两个模型完全独立的设定反而能够取得非常优异的结果,也就是 分离的标签空间理应使用两个独立的模型 。

 

然而,目前大多数的联合方法采用的都是这种分离标签空间的做法,也就是实体标签空间和关系标签空间完全独立,由此作者提出联合方法理应采用一个 统一的标签空间 ,这样才有助于 充分挖掘联合方法的潜力 。

 

三、统一标签空间的挑战

 

在以往的工作中,实体识别和关系抽取一般被定义成两种不同的问题形式:实体识别是一个序列标注问题,也就是预测每一个单词对应的“B”(名词短语的开头),“I”(名词短语的中间),“O”(不是名词短语)标签;而关系抽取是一个多分类问题,也就是给定两个实体然后预测存在哪种关系。 如何将这两种不同的问题形式统一到一个问题框架里成为统一标签空间面临的最大挑战 。

 

之前Zheng等人[3]尝试将关系分类也转化成一个序列标注问题,然后用一个统一的序列标注模型来完成联合实体关系抽取,但序列标注这种一维结构的表示能力还是太弱,无法刻画出复杂的 重叠关系 。具体来说,如果一个实体参与了多个关系,那转化成序列标注问题后就只能有一个关系能被表示出来。

 

四、新的问题形式

 

既然将关系分类装化成序列标注不可行,那为什幺不试试将实体识别转化成一种特殊的关系分类呢?

 

沿着这个思路,作者提出了一种新的问题形式,彻底解决了表示能力不足的问题。

 

 

图1 词对关系表

 

如图1所示,作者引入了一张 词对关系表 ,这个二维表结构具有更强的表示能力,可以将所有的实体和关系都在这张表中完整得表示出来。(PER:人名实体,GPE:地理位置实体,PER-SOC: 社会关系,ORG-AFF:机构附属关系, PHYS:位置临近关系)这张表是定义在单词级别的,表中每一个单元表示列单词对行单词的关系,也就是说(i,j)单元和(j,i)单元表示的关系互为逆向关系。接下来,我们看看如何用单词之间的关系来表示实体和关系?

 

关系的表示比较自然,如果两个实体之间存在某种关系,那我们认为这两个实体包含的单词之间都具有这种关系。同时,由于每一个单元表示的都是有向关系,也就使得这个二维表天然保留了关系的方向性。比如,表的整个上三角部分表示的都是正向关系,而下三角区域表示的都是逆向关系。从图1例子可以看出:

 

· 正向关系 : 人名实体 David Perkins 对地理位置实体 California 存在位置临近关系 PHYS ,那 David 对California,Perkins 对 California 都具有 PHYS 关系;

 

· 逆向关系 : 人名实体 doctors 对地理位置实体 village 存在隶属关系 ORG-AFF ,那 doctors 对 village具有 ORG-AFF 关系;

 

· 无向关系 : 两个人名实体 David Perkins 和 wife 之间存在社会关系 PER-SOC ,这被分解成两个对称关系,David Perkins 对 wife 的正向关系和 wife 对 David Perkins 的逆向关系。

 

接下来,如何将实体也统一到这个表示框架中成为问题的关键。作者将实体看成是一种 自环关系 ,也就是自己到自己的关系,并且还是无向关系,而关系的标签就是实体标签。因此,一个实体内包含的单词两两之间都具有实体标签的关系。比如,David Perkins 是一个人名实体,那 David 对 David ,David 对Perkins,Perkins 对 David ,Perkins 对 Perkins 都具有标签为 PER 的关系。

 

在这个新的问题形式下,每一个单元的标签空间都是一致的,就是所有实体标签加上所有关系标签还有表示空关系的 。这样一来, 模型的标签空间就是一个统一的标签空间了 。

 

另外,在这张二维表中,我们发现 实体对应一个对角线上的正方形,有向关系对应一个不与对角线重叠的矩形,无向关系对应两个关于对角线对称的矩形 。

 

五、 模型的训练

 

得益于这个新的问题形式,模型的训练就简化成学习预测每一个单元的标签,也就是 填表 。作者采用了一个基于预训练模型的双仿射模型来建模两个单词之间关系。整体模型架构如图2所示。

 

 

图2 模型整体结构

 

具体地,对于输入的句子 ,首先经过一个预训练模型得到单词的上下文表示 ,然后使用双仿射注意力机制得到每一个单元对应的的分数向量 ,再使用Softmax函数计算出每一个单元标签的概率分布,具体计算过程如下。

 

损失函数就是交叉熵函数:

 

为了融入更多的结构先验信息,作者还在双仿射模型输出的概率分数上施加了两个结构限制:

 

· 对称性 :  对于实体和无向关系,其对应的正方形和矩形必然关于对角线对称。因此,这些标签对应的概率分数应该关于对角线对称。

 

· 蕴含性 :  给定一个关系,那参与这个关系的必然是两个实体,相反,给定两个实体,它们之间不一定存在关系。因此,一个关系的概率分数应该不高于其两个论元实体的概率分数。

 

标签预测损失再加上两个结构限制惩罚项就构成了模型最终的训练目标。

 

六、解码

 

在推理阶段,我们还需要从模型对于每一个单元标签的预测结果中恢复出所有的实体和关系。其实这个解码也就是 找矩形 ,找到所有对应实体和关系的矩形即可。这里如果暴力枚举所有矩形,时间复杂度太高,必然是不可行的。因此,作者基于表结构的特殊性质提出了一种 三步走 的近似解码算法,如图3所示。

 

 

图3 三步走解码算法

 

1. span划分 。这是整个解码算法最核心的一步,其基于表结构的一个天然属性——同一个实体包含的单词所对应的行(列)完全一样。比如,David和Perkins属于同一个实体,二维表的第一行(列)和第二行(列)完全一样。因此,如果相邻两行(列)不一样,那就说明这两个单词存在span的切分点(也就是实体的边界)。根据这个性质,我们首先将模型预测的三维概率张量按行(列)展成二维矩阵,然后计算相邻行(列)的欧式距离,去行列距离的平均值作为最终距离,如果距离超过阈值那就说明这两个单词之间存在切分点。这样就可以在 的时间复杂度下找到所有的切分点,进而划分出所有的span。

 

2. 实体解码 。 对于切分出的每一个span,确定其作为实体所对应的对角线上的正方形,然后平均这个正方形内所有单元的分数,取分数最高的实体标签(包括空)作为最终实体类型。

 

3. 关系解码 。 这一步和实体解码类似,首先将第二步解码出的实体两两配对,确定它们之间的关系所对应的矩形,然后平均这个矩形内所有单元的分数,去分数最高的关系标签(包括空)作为最终的关系类型。

 

七、实验结果和分析

 

这篇论文在三个常用的实体关系抽取数据集(ACE04,ACE05,SciERC)上和目前的SOTA(State Of The Art:当前最高水平)方法做了对比。从实验结果上来看:UniRE 在 ACE04 和 SciERC 上取得了目前最好的结果,在 ACE05 数据集上相比于 Zhong 和 Chen 的流水线方法还有一些差距,但和其他方法相比已有明显提升。

 

 

图4 ACE04/ACE05/SciERC上的实验结果

 

除了性能表现,论文还比较了参数量以及推理速度。使用相同的预训练模型 BERT-Base ,和 Zhong 和 Chen 的流水线方法相比, 性能表现相当,但 UniRE 的参数量仅为其的一半,而且推理速度加快了十几倍。

 

 

图5 参数量和推理速度的对比

 

八、总结

 

这篇论文提出了 一种定义在统一标签空间的联合实体关系抽取新范式 ,引入了一张二维表将所有的实体和关系够完整地表示出来。

 

在这种新的问题形式下,模型的训练和推理过程被大大简化,模型的训练就是 填表 ,而推理就是 找矩形 。这篇论文还提出了在推理过程中 三步走 的高效近似解码算法,兼顾解码的准确性和解码速度。

 

最后实验结果显示该方法达到了 目前 SOTA 的水平 ,而且大大加快了 推理速度 。这种新的问题形式有望在更多的信息抽取任务中应用。

 

//

 

作者介绍

 

汪贻俊 ,上海交通大学ThinkLab实验室硕士研究生,字节跳动AILab研究型实习生。他主要研究方向为信息抽取,实体关系抽取,并以第一作者身份在ACL,EMNLP,EACL等自然语言处理会议发表数篇论文。

 

参考:

 

[1] Yijun Wang, Changzhi Sun, Yuanbin Wu, HaoZhou, Lei Li, and Junchi Yan. UniRE: Aunified label space for entity relation extraction. ACL, 2021.

 

[2] Zexuan Zhong and Danqi Chen. A frus-tratingly easy approach for entity and relationextraction. NAACL, 2021.

 

[3] Suncong Zheng, Feng Wang, Hongyun Bao, Yuexing Hao, Peng Zhou, and Bo Xu. Joint extraction of entities and relations based on a novel tagging scheme. ACL, 2017.

 

Illustrastion   by Irina Molchanova from Icons8

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注