Press "Enter" to skip to content

《PA-LSTM-CRF》阅读笔记

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

来源:AAAI2019

 

论文: 《Joint Extraction of Entities and Overlapping Relations Using Position-Attentive Sequence Labeling》

 

Abstract

 

联合实体和关系抽取是利用单个模型来检测实体和关系。本文提出了一种新的统一的联合抽取模型,该模型根据查询词的位置p直接标记实体和关系标签,即在p处检测实体,并识别与该位置有关系的其他位置的实体。为此,本文首先设计了一个标记方案来生成n个标记序列来标记n个单词的句子,然后引入一种位置注意机制,为每个查询位置生成不同的句子表示,来对n个标记序列进行建模。这样,本文的方法可以同时提取所有实体及其类型,以及所有重叠关系。实验结果表明,本文的框架在提取重叠关系和检测长距离关系方面都有显着的提高,从而在两个公共数据集上取得了最新的性能。

 

Introduction

 

 

Kate and Mooney 2010; Li and Ji 2014; Miwa and Sasaki 2014; Ren et al. 2017 以往的联合模型大多是基于特征的结构化学习 这些方法很大程度上依赖于手工构建的特性和其他NLP工具包。
Miwa and Bansal 2016; Gupta, Schutze, and Andrassy 2016 近年来,已有多种神经网络结构被应用,它们大多利用参数共享进行联合建模。 仍需要显式的独立分量来进行属性识别和关系分类。
Zheng et al. (2017b) 提出了一种特殊的标注方案,将联合提取转化为序列标注问题,统一求解。 不能识别重叠关系,这可能会导致在处理具有重叠关系的句子时召回率较低
Zeng et al. (2018) 采用带复制机制的序列到序列学习。 模型无法识别多词实体。

 

本文提出了一种新的统一方法,根据查询词的位置p同时标注实体和关系标签来解决联合抽取问题。给定一个句子和一个查询位置p,模型将回答两个伪问题:“p处的实体及其类型是什幺?和“哪些实体和p处的实体有关系?”

 

为此,本文设计了一个特殊的标记方案,在查询位置p处标注实体标签,在句子的其他位置标注关系标签。为了在一个统一的模型中对句子的n个标记序列进行建模,在序列标记模型中引入了一种新的位置注意机制,以产生n种不同的位置感知句子表示。

 

Contributions:

 

l 设计了一个能够同时表示实体类型和重叠关系的标记方案。

 

l 提出了一种位置注意机制,根据查询位置p产生不同的位置感知句子表示,用于解码不同的标记序列和提取重叠关系。

 

l 用两个公共数据集证明了该方法的有效性,并取得了最新的结果。此外,分析表明,本文的模型在提取长距离关系方面表现出更好的性能,这通常是比较困难的。

 

Methodology

 

Tagging Scheme

在每个标记序列中,如果当前查询位置p是实体的开始,则在当前查询位置p标记实体类型,而与p处的实体有关系的其他实体用关系类型标记。其余的词语被分配标签“O”。 对于实体和关系类型的标注,使用BIES(Begin,Inside,End,Single)符号来表示标记在实体中的位置信息,从而可以提取多单词实体。根据本文的标注方案,一个n字句子中的所有重叠关系,以及所有的实体提及及其实体类型,都可以用n个标记序列来表示。

 

End-to-End Sequence Labeling Model with Position-Attention

 

使用本文的标记方案,构建了一个端到端序列标记神经体系结构(图3),以联合提取实体和重叠关

架构首先使用RNN编码器对n字句子进行编码;然后使用一个位置注意机制为每个查询位置p生成不同的位置感知句子表示;基于这些位置感知表示,最后使用条件随机场(CRF)对n个标签序列进行解码,以提取实体和重叠关系。

 

Bi-LSTM Encoder

 

词语转化为词向量,OOV的词语采用character-level(CNN得到,这种CNN与应用于单词的CNN类似,接收字符嵌入作为输入,生成表示,有效地捕捉单词的形态信息),单词的最终表示是单词级和字符级表示的连接[wwt ; wct ]. 作为Bi-LSTM的输入

然而,这些表示不足以解码由本文的标记方案产生的n个标签序列。因为在重叠的三元组中缺少位置信息来检测Entity1和其他组件。

 

Position-Attention Mechanism

 

检测一个实体及其与另一个实体的关系的关键信息包括:(1)实体本身内部的单词;(2)依赖的实体;(3)表示关系的上下文。本文提出一种位置注意力机制,来产生一种包含上述信息的表示:

hj、hp、ht分别是j、p、t处的隐藏状态,stj是将hp和ht与每个句子状态hj进行比较得到的分数,atj是stj归一化后产生的注意权重。这意味着本文所关注的位置的状态hp用于与句子表示相比较来编码位置信息,ht用于将句子表示与自身匹配(自匹配)以从上下文中收集信息。

 

CRF Decoder

 

输入:位置感知句子表示

Zt,j是在位置t的第j个标签得分,A是转移矩阵,因此Ai,j表示从标签i到标签j的转换得分。得到所有可能的标签序列y的条件概率,其形式如下:

其中YZ表示Z可能的标签序列。

 

Loss:

训练目标:

Experiments

 

Datasets:NYT、Wiki-KBP

 

Evaluation:F1、Precision、Recall

 

Result

Effect on Overlapping Relation Extraction

 

如表1所示,在两个数据集的训练数据中,约有三分之一的句子包含重叠关系,但在测试集中则更少。事实上在这两个数据集中,人工标注的测试数据中有许多重叠的关系被省略了,特别是对于实体对的反向关系,这可能会严重影响本文模型在重叠关系检测中的性能,尤其是检测精度。因此,为了验证本文模型识别重叠三元组的能力,只需在Wiki-KBP的测试集中添加一些gold三元组。例如,原始数据中有“per:children”,则添加一个反转三元组“per:parents”,这将使测试集中具有重叠关系的SENSE数量从23个增加到大约50个,但与训练数据的比例仍然小得多。表3中报告了与LSTM-LSTM-Bias比较的评估结果。

Ablation Study

Comparison of Running Time

 

当LSTM LSTM Bias或LSTM-CRF只运行一次序列标记来提取非重叠关系时,本文模型标记同一个句子时还要再标记n−1次,以便识别所有重叠关系。这意味着本文的模型更耗时(O(n2)vs.O(n))。例如,LSTM-CRF在Wiki-KBP测试集上只预测300个样本,消耗2个样本,而本文模型需要解码约7000个标记序列,耗时约50秒,但是,在位置注意机制之前共享句子表示可以加快测试速度,因为其他n-1次解码都是相同的。这样,本文的模型运行时间减少到16s,而且由于某些词不可能成为实体的头实体,还可以在实际应用中删减一些查询位置以进一步加速。

 

Further Analysis for Attention

这意味着本文的模型可以有效地建模长距离实体之间的依赖关系。

 

Case Study for Attention Weights

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注