Press "Enter" to skip to content

论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

论文作者邓淑敏,浙江大学计算机学院2017级直博生,研究方向为信息抽取与知识图谱应用研究,以及元学习。

 

 

References:Ningyu Zhang,  Shumin Deng , Zhanlin Sun, Guanying Wang, Xi Chen, Wei Zhang, Huajun Chen (2019). Long-tail Relation Extraction via Knowledge Embeddings and Graph Convolution Networks. NAACL 2019.

 

URL : https://www.aclweb.org/anthology/N19-1306

 

Motivation

 

长尾关系是关系抽取数据集中样本非常少的关系,也是不容忽视的。在目前广泛使用的关系抽取数据集NYT中,近70%的关系是长尾的。由于可用的训练样例有限,所以处理长尾关系是非常困难的。因此,有人将知识从数据丰富且语义相似的头部关系迁移到数据贫乏的长尾关系。一个实体三元组的长尾关系可能与头部关系具有层次关系,可以利用这种关系来缩小潜在的搜索空间以增强关系抽取的性能,并在预测未知关系时减少关系之间的不确定性。比如本文给出的例子:如果一对实体包含/people/deceased person/place of death关系,则很可能包含/people/deceased person/place of burial关系。如果能够有效学习和利用两个关系之间的知识,那幺抽取头部关系将可以为长尾关系的预测提供依据。

 

目前解决长尾关系抽取的研究很有限,Han, Xu, et al.发表在EMNLP2018上的文章“Hierarchical Relation Extraction with Coarse-to-Fine Grained Attention”,提出一种“由粗略到精细”的分层注意力的长尾关系抽取机制,特别针对长尾关系。受此启发,本文进一步结合头部关系和长尾关系之间的知识,将知识从数据丰富的头部关系转移到数据贫乏的长尾关系。下图就展示了这种知识迁移的思想。

 

 

基于知识迁移的思路,本文主要考虑两个问题:

 

(1)学习关系知识:语义相似的类可能包含更多的关系信息,这将促进传递,而不相关的类(例如,/location/location/contains和/people/family/country)通常包含较少的关系信息,可能导致负转移。

 

(2)利用关系知识:将关系知识与现有的关系抽取模型相结合具有挑战性。

 

Approach

 

为了解决 学习关系知识 的问题,本文使用类嵌入来表示关系类,并利用知识图谱和图卷积网络(Graph Convolution Network,GCN)分别提取隐性和显性的关系知识。在潜在空间中,相似关系的嵌入距离较近。例如,/people/person/place live和/people/person/nationality更相关,而/people/person/profession与前两种关系的关联较少,因此,利用知识图谱的这些知识是很自然的。但是由于知识图谱中存在多对一关系,因此每个关系类的相关信息可能会分散。换言之,关系类之间可能没有足够的关系关联信息。因此,本文利用图卷积神经网络来学习明确的关系知识。

 

为了解决 利用关系知识 的问题,本文首先使用卷积神经网络来得到句子的表示;然后引入“粗略到精细”的知识感知的注意力机制,将关联知识与句子表示结合到包表示向量中。关系知识不仅为关系预测提供了更多信息,而且为注意力模块提供了更好的参考信息,以提高长尾关系抽取的性能。

 

模型的整体架构如图1

 

 

图 1. 基于知识图谱与图神经网络的长尾关系抽取的模型架构

 

给定一个知识图谱 ,其代表实体集合, R 代表关系集合, F 代表事实集合。 (h,r,t)F 表示实体h,  t∈间存在关系 rR

 

模型主要分为三部分,下面简要介绍三部分的设计:

 

1) 实例编码( Instance Encoder ):

 

给定一个提及两个实体的实例 , [1] 将原始实例编码为连续的低维向量 x ,其由嵌入层和编码层组成。

 

嵌入层: 用于将实例中的离散单词映射到连续的输入嵌入中。对于每个单词 w_i ,将它与两个实体的相对距离嵌入到两个 维向量中。然后,将单词嵌入和位置嵌入连接起来,以得到每个单词最终输入的嵌入,并整合所有输入实例的嵌入。这样就得到了输入到编码层的嵌入序列。

 

编码层:旨在将给定实例的输入嵌入组合成其对应的实例嵌入。这部分选择了两种卷积神经结构,CNN 和 PCNN,将输入嵌入编码为实例嵌入。

 

2) 通过知识图谱和 GCN 学习关系知识:

 

给定预训练的知识图谱和预定义的类(关系)层次结构,首先利用来自知识图谱的隐式关系知识并初始化层次结构标签图:

 

对于一个给定的知识图谱的基本关系集合 R,可以生成更好等级的关系集合。关系层次结构是树状的,从一个虚拟的父节点开始构建层次结构,层次关系结合 通过 L -1 次处理得到。通过 TransE 预训练知识图谱,初始化最底层中每个节点的向量。通过各个子节点的平均值来初始化父节点向量。

 

然后应用两层 GCN 来学习标签空间中明确的细粒度的关系知识,将父子的标签向量组合起来形成第 i 个标签:

 

 

其中 f 是修正线性单元函数, 是第 i 个标签子(父)结点的索引集合。本文使用不同的参数来区分每个边的类型,其中父边代表高级标签的所有边,子边代表低级别标签的所有边。第二层与第一层相同,最后输出显式关系嵌入 。最后连接预训练的隐式关系嵌入 和 GCN 节点向量 得到层次类嵌入:

 

 

3) 知识感知注意力

 

q_r 作为层次注意力查询向量,计算每一层标签图上的注意力,以获得相应的文本关系表示:

 

 

不同的层对不同的三元组有不同的贡献,因此使用注意力机制来强调层次。把不同层次的文本关系表示语句串联起来作为最终的表示,计算最终的条件概率:

 

 

最后,整体的score function是:

 

 

其中 M 为计算关系得分的表示矩阵。注意权值是由GCN和预训练的知识图谱输出得到的,它比数据驱动的学习提供更多的信息参数,特别是对于长尾关系。

 

Experiments

 

最后本文在NYT数据集上进行了实验,可以发现,对比众多关系抽取方法,本文提出的模型效果均有提升。实验结果如下:

 

 

Precision-recall curves for the proposedmodel and various baseline models

 

 

Precision-recall curves for the proposedmodel and various attention-based neural models.

 

 

 

本文还可视化了关系类的嵌入,对比图(a)和图(d)发现语义上相似的关系类嵌入更接近GCN和预训练的KG嵌入,这有助于选择长尾关系;对比图(b)和图(c),发现KG 嵌入和 GCN 对不同关系对学习不同类之间的关系知识有不同的贡献;图(d)显示,仍会有一些语义相似的类嵌入分布相隔很远,这可能会降低长尾的优异性能。这可能是由于层次结构图中的稀疏性,也可能是GCN 中具有相同父节点的节点被同等处理了。

 

 

 

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注