Press "Enter" to skip to content

Hierarchical Contextualized Representation for NER

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

Hierarchical Contextualized Representation for Named Entity Recognition

 

AAAI 2020 上海交大

 

Source: Hierarchical Contextualized Representation for Named Entity Recognition Code: cslydia/HireNER

 

Abstract

 

BiLSTM由于其 连续性 和 单一输入 特性,使得模型无法更好的利用全局 句子级 和 文档级 信息。本文解决上面所说的两个缺陷,并提出了一个分层语义表示(句子级别和文档级别) 增强 模型。

 

Introduction

BiLSTM的限制

近年来NER模型主要用BiLSTM来抽取序列信息,然而BiLSTM存在无法很好的利用全局信息的限制。

 

缺陷一: 在任意时刻t,BiLSTM只考虑 当前的输入 和 过去的概况 ,因此这很难抓取 句子级别信息 。Zhang,Liu等人同时对每个词状态和整个句子状态建模子状态来抓取句子级别信息,Liu等人使用全局语义编码器和平均池化策略来抓取句子级别特征。即使这些工具抓取了句子级别特征,但是他们忽略了 词重要性 。

 

缺陷二: BiLSTM在训练和预测时仅仅使用一条训练数据,这使得模型无法有效的抓取文档(数据集)级信息。比如单个token对于预测相关的token是有指示性帮助的。Akbik等人在不同语义Embedding中使用池化操作来生成全局词表示,但是他们只考虑单个词Embedding的变化。

主要工作

本文提出一种 分层 语义表示框架来增强NER模型。

 

对于 句子级别表示 ,本文将标签嵌入进与词Embedding相同空间,并且通过一种 计算词Embedding的监督机制 来学习标签Embedding。理论上,认为每个词Embedding应该与它们对应的标签Embedding 更近 ,与其他标签Embedding 更远 。接着,本文将词Embedding和它最近标签的Embedding的相似度作为词的 置信度 ,这个置信度表示词在句子中的 重要性 。本文认为高置信度的词对于句子级表示的贡献更大。最后,句子级别表示会被分配到每个token。

 

对于 文档级别表示 ,本文使用键值记忆网络来 记忆 所有训练数据的词Embedding及对应的隐层状态。接着用监督机制来加权记忆模块的输出后,将文档表示与原文隐层状态融合并输入解码器。PS:本文的训练数据不仅用于训练,同时还用于预测。

 

Model

Token Representation

 

给定长度为N的序列: ,对于每个 ,级联其字符Embedding和词Embedding,具体表示为

 

Sequence-level Encoder


,表示为标签Embedding。其中P是标签的数量。
是词Embedding的维度。词
与标签

的词-标签置信度对通过余弦相似度计算。

track

使用CNN来抓取句子中词的相邻空间信息,即这里每个词-标签对的置信度不仅仅只考虑该词本身,同时还考虑词的
前后k/2 个词的相关性。最后通过一个
最大池化 操作,得到每个词与所有标签的置信度。通过一个softmax操作后,得到归一化置信度
其中,


,k为卷积核大小

 

句子级表示 可由隐层表示 加权求和得到,权重即归一化置信度。得到的句子级别表示会和 做串接得到 。隐层表示具体得到方式可见 Sequence Labeling Encoder , ,其中,

 

Sequence Labeling Encoder

作为BiLSTM的输入,用于提取序列信息,通过以下公式输出每个token的隐层表示
,其中 和

是训练参数。

 

Document-level Representation

 

定义记忆槽 ,其中 代表第i个词的Embedding, 代表第i个词的隐层状态。

 

Memory Update 是每一训练epoch后更新一次记忆槽

Memory Query 对于句子中的第i个词,选取T个包含该词的槽
,并用监督机制对着T个槽进行加权得到最后的文档级别表示
。监督机制为
。监督方式
包含
点积,归一化点积,余弦相似度 三种方式,其中query为该词的Embedding,key为
, value
Memory Response
其中,
是Sequence Labeling Encoder的输出,
是文档级表示,
为混合表示作为解码器输入,

为超参数,控制文档级别表示的比重。

 

Decoder

 

解码器使用条件随机场CRF。在训练时,CRF能够考虑输出标签之间的联系,在解码时使用维特比译码算法求得最佳标注序列。最佳标注序列的打分函数使用下式:

其中
表示

的转移打分,

表示第i个词为第j个标签的打分

 

训练目标函数:使得 标签序列的概率最大

Experiment

 

Results and Comparisons

模型在CoNLL-2002,CoNLL-2003,OntoNotes5.0上性能均超过先去的模型,并达到了新的SOTA。实验验证了模型在没有外部知识的加成下能够真实学到并受益于句子级和文档级表示

 

Ablation Study

消融实验验证了句子级和文档级表示分别都对模型有性能上的提升,并且两种共同使用的提升要比分别使用的提升大。

实验验证了不用的点积策略,不同池化策略对模型性能的提升。从实验结果可以看到,这些方式均对模型的性能有所提升。这里作者分析了余弦相似度的作用:计算归一化向量的点积,能更好的解决embedding与similarity之间的不一致性。

 

Memory Size and Time Consuming

对记忆查询时选取的记忆槽个数T与模型性能,运行时间做的两个实验。可以看到当T小于500时,文档级别表示会提供有用的信息,当T大于500时,该词有可能是停用词,导致模型性能下降。同时模型的运行时间也只比baseline多20%。

 

Improvement Discussion

这里主要是验证了句子级别表示能够提升模型在IV,OOTV,OOEV,OOBV下的性能,因此模型整体性能均得到提升。

 

Discussion

 

本文的贡献主要是:

 

1. 首个提出分层句子级和文档级表示来使得NER模型能够充分利用全局信息。

 

2. 引入标签嵌入监督机制用于句子级表示,并提出有效的方法来蒸馏文档信息。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注