Press "Enter" to skip to content

论文浅尝 | 基于潜在类别信息的实体链接

笔记整理 | 黄一凡,东南大学本科生

 

 

来源:AAAI2020

 

链接: https://arxiv.org/pdf/2001.01447v1.pdf

 

一、简介

 

作者意识到在利用预训练模型进行实体链接时,往往会将类别信息忽略,因此会导致模型将指称链接到拥有错误类别的错误实体。为了验证这一发现,作者对DeepED(Ganea and Hofmann 2017)在AIDA-CoNLL的验证集上的结果进行分析,发现超过一半的错误中,类别信息都不匹配。原因有二:一是词袋模型忽视了位置信息;二是DeepED采取的预训练模型编码方式对实体的类别信息不敏感。

 

为了解决上述问题,本文提出将待链接指称的前后相邻词建模,从而考虑潜在的类别信息。另外,本文还将一个基于BERT的实体相似度特征纳入原始模型,使其可以更好地注意类别信息。

 

二、贡献

 

a)指出当前基于注意力机制的模型常常会将某一指称链接到不属于同一类别的实体并分析其可能成因。

 

b)提出一个全新的基于BERT的实体表示方法,可以更好地注意到潜在类别信息。

 

c)将基于BERT的实体相似度特征纳入DeepED。

 

d)在标准benchmark数据集上验证了该模型的有效性,并有显着提高。此外,该模型可以更正大部分类别错误。

 

三、模型

 

该模型包含两个阶段:1)基于BERT构造实体表示 2)在模型中加入实体相似度特征

 

3.1、基于BERT的实体表示

 

3.1.1、上下文表示

 

一个指称的相邻文本可以代表其类别信息。因此,我们通过提取预训练BERT模型的最顶层表示来表示上下文:

 

3.1.2、实体表示

 

对于每一个实体,随机从维基百科采样N个上下文信息,接着用平均池化表示该实体:

 

 

3.2、基于BERT的实体相似度

 

使用上下文表示和实体表示间的cosine相似度定义实体相似度:

 

最终,采用两个拥有100个隐藏单元和ReLU激活函数的全连接层将计算得到的实体相似度与原模型结合:

 

 

四、实验

 

4.1、数据集

 

为了全面的评估该模型的效果,作者分别测试了该模型的in-domain和out-domain效果。

 

对于in-domain,使用AIDA-CoNLL数据集进行训练、验证以及测试;对于out-domain,使用AIDA-CoNLL训练集上训练的模型,在五个流行的数据集上进行测试:MSNBC,AQUAINT,ACE 2004,WNED-CWEB,WNED-WIKI。

 

4.2、设置

 

为了与DeepED模型进行对比,候选指称生成采用了与其相同的方法,同时只考虑在知识库中存在的指称。

 

4.3、结果

 

 

该表展示了在in-domain设置下本文提出的模型与其他SOTA模型在AIDA-B数据集上的F1得分对比。可以发现,不论是在local模型还是global模型,该模型均取得了显着的提高。

 

 

另外,在out-domain中,平均来看,本文提出的模型相对原有模型也有着一定的模型。由此可见,该模型的鲁棒性较好。

 

4.4、分析

 

a)为了验证该模型可以更好地获取类别信息,作者进行了一个基于该模型的类别预测实验。实验从维基百科中随机采样了10万个实体,并预测它们的类别。最终结果验证了作者的猜想。

 

b)该模型可以大大减少类别错误。作者还更进一步分析了依然存在的类别错误,并将其成因分为三类:先验知识、全局信息和上下文信息,并会在今后根据此进一步对模型进行改进。

 

c)经过实验进一步发现,如果使用表现更好的全局模型,该模型的效果还会进一步提高。

 

五、总结

 

本文提出提取潜在的类别信息来提高实体链接的表现,实验表明该模型无论在in-domain还是out-domain都可以提高表现。在未来,作者还将进一步研究全局模型处理方法来进一步提高实体链接的准确率。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注