Press "Enter" to skip to content

论文浅尝 | 利用跨内和跨间信息的预训练实体关系编码器

笔记整理 | 朱珈徵,天津大学硕士

 

 

链接: https://www.aclweb.org/anthology/2020.emnlp-main.132.pdf

 

动机

 

从自由文本中提取实体和关系是自然语言处理中的一项重要任务。它的目标是识别具有特定类型 ( 实体 ) 和这些实体 ( 关系 ) 之间的语义关系的文本。本文主要研究联合实体关系的提取。在这篇文章中,作者将跨域相关资讯整合到预先训练好的编码器中,以执行实体关系抽取作业。并在预训练网络中引入了一个 span 编码器和一个 span 对编码器,使得跨内和跨间信息更容易导入预训练模型,而不是使用通用的句子编码器(如现有的通用预训练模型)。为了学习编码器,作者从不同的角度设计了三个定制的预训练目标,分别针对 token 、 span 和 span 对。特别地,训练 span 编码器以恢复 span 中令牌的随机洗牌,并且训练 span 对编码器以使用对比丢失来预测来自相同句子的正对和来自不同句子的负对。实验结果表明,该预训练方法优于远程监督预训练方法,在两个实体关系抽取基准数据集( ACE05 , SciERC )上取得了良好的效果。

 

亮点

 

该工作的亮点主要包括:

 

( 1 )引入了一个跨距编码器和一个跨距对编码器,将跨距内和跨距间的信息整合到预训练网络结构中,这在通用的预训练模型中是被忽略的。

 

( 2 )设计了三种新的目标,标记边界目标、跨度排列目标和对比跨度对目标来学习更好的编码器。

 

( 3 )实验结果表明,该方法不仅在实体关系抽取任务上超过了 BERT ,而且在 ACE05 数据集上取得了显着的改进,与 SciERC 数据集上的最新成果相当

 

概念及模型

 

给定一个输入句子
和 x 中的一组跨度 S (随机抽样),预训练模型的目标是获得每个跨度
的上下文向量表示,以及每个跨度对( s1 , s2 )的上下文向量表示。如下图所示,预训练任务优化了共享 transformer 网络、 span 级 CNN 和关于令牌边界目标、 span 置换目标和对比 span 对目标的注意参数。与通常的预训练语言模型不同,该网络包含了丰富的跨内和跨间信息。一旦该网络被预先训练,就可以为实体关系提取任务对其进行微调。

 

 

句子编码器

 

为了获得句子 x 中每个标记的上下文表示 h i ,作者使用多层 Transformer 作为基本编码器,就像其他的预训练模型一样,如 UNILM 、 BERT 和 XLM 。多层 Transformer 的输出通过以下方式计算:

 

x i 的单词表示 x i 跟随 BERT 的单词表示,并对相应的标记、段和位置嵌入求和。

 

跨距编码器

 

给定句子中的 Span
,为了计算相应的上下文 Span 表示 h s ,作者使用了一个 CNN( 一个单一的卷积层,带有一个最大池化层,后面是向量
上的 MLP 。如上图的右边部分所示。

 

跨距对编码器

 

给定句子 x 中的跨度对 p= ( s 1 ; s 2 ),句子 x 被分成五个跨度,即左上下文( L )、 s1 、中上下文( M )、 s2 和右上下文( R )。为了获得相应的上下文跨度对表示
,作者首先使用跨度编码器来提取关于五个跨度的五个特征向量。设
为 span 编码器计算的相应表示。为了使模型能够关注更多的信息广度,作者将跨度对 p 表示为一个位置感知注意机制的上下文广度表示的加权和:

 

 

其中注意力得分 a j 可以计算为:

 

 

预训练目标

 

TokenBoundary Objective (TBO) :提出了一个变体的 MLM ,具体地说,对于每个令牌,作者屏蔽除第一个子令牌之外的子令牌,然后用第一个子令牌表示和相应的位置嵌入来预测被屏蔽的子令牌。在实验中,为每个句子随机选择 15% 的子标记来实现这个目标。

 

SpanPermutation Objective (SPO) :提出了一种不同的策略来将跨内信息整合到预训练模型中。 SpanBERT 仍然致力于增强单个标记的表示,而作者强调整个跨度的上下文表示。不是在 SpanBERT 中预测一个被屏蔽的 span 的每个标记,而是在 span 中洗牌这些标记,然后期望模型能够识别中断。

 

ContrastiveSpan Pair Objective (CSPO) :提出了一种基于对比学习框架的跨对层次目标。受 InfoWord 的启发,它将跨度及其匹配的上下文 ( 即同一句子中的上下文 ) 视为正对。否则作为否定对。作者把这个想法推广到 span 对的层次上。

 

理论分析

 

实验

 

在这一部分,作者在 ACE05 和 SciERC 两个基准实体关系提取数据集上进行了实验。 ACE05 数据集为文档集合注释实体和关系类型。它是实体关系抽取任务的标准语料库。语料库中有 7 种实体类型和 6 种关系类型。 SciERC 数据集提供 500 篇科学摘要的实体注释、参考注释和关系注释,这些科学摘要均来自会议 / 研讨会的论文集。实验中只使用实体和关系的注解。语料包含 6 种科学实体类型和 7 种关系类型。实验像之前的工作一样将 Fl 评分作为评估标准。具体来说,如果一个输出实体的类型和边界是正确的,那幺它就是正确的;如果它的类型和它的两个参数实体是正确的,那幺输出关系就是正确的 ( 即完全匹配 ) 。

 

 

上表为模型在 ACE05 数据集上的实验结果,将这篇文章的方法与上表中以前的工作进行比较。总的来说,作者提出的预训练方法“ SPE ”在两种关系评价方法上都比现有的模型有了显着的改进。特别是,它比基于 LSTM 的 GCN 联合模型提高了 4.1 分,比基于 bert 的 QA 模型提高了 3.0% ;与多任务学习相比较在 ELMO 和 BERT 上也取得了显着的改善。值得注意的是,该模型的实体检测结果表现不佳,主要原因是在微调步骤中,作者不引入额外的监督信号,如参考解析和事件提取。然而,即使没有额外的多任务训练数据,该模型仍然获得了最佳的关系性能,证明

 

了所提出的训练前方法对于实体关系提取任务的有效性。

 

 

上表为模型在 SciERC 数据集上的实验结果,基线方法是使用 ELMOembeddings 学习多任务和使用 BERT 进行多任务学习。从上表的上面一部分来看,“ BERT ”和“ SPE ”在实体性能和关系性能上都显着优于 ELMO 。作者把这一现象归因于 BERT 的强大能力。“ SPE ”的性能优于“ BERT ”,表明所提出的目标在实体关系提取方面很有帮助,并且能够将跨度信息整合到预先训练的模型中。该预训练模型可以匹配先前最先进的 BERT 多任务学习方法,而无需额外的多任务学习数据。

 

总结

 

提出了一个具有三个目标的预训练网络体系结构,可以将跨内信息和跨间信息整合到预训练模型中。与通用的预训练模型相比,作者引入了一个跨度编码器和一个跨度画式编码器。通过设计三个预训练目标,作者可以更好地学习为实体关系提取任务定制的预训练编码器。在两个基准数据集上的实验验证了所提预训练方法的有效性。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注