Press "Enter" to skip to content

论文浅尝 – ACL2020 | 知识图谱补全方法的再评估

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

笔记整理 | 谭亦鸣,东南大学博士

 

 

来源:ACL 2020

 

链接: https://www.aclweb.org/anthology/2020.acl-main.489.pdf

 

源码:http://github.com/svjan5/kg-reeval

 

概述

 

图谱补全(KGC)的目标是自动的预测大规模知识图谱中缺失的link。在数据挖掘,机器学习和自然语言处理等领域的顶会上,一众state-of-the-art()的KGC技术相继被提出。但是,作者注意到近期一些发表的基于神经网络的方法给出了远高于以往SOTA结果的方法,本文中作者研究发现产生这种情况的主要原因在于这些工作使用了不适当的评估方案:即仅在特定数据集上取得显着性能提升,而并没有充分验证其在不同数据集上的性能(如表1中,一些模型在FB15k-237,WN18RR等两个数据集上的MRR提升差异很大)。

 

 

因此本文针对性提出了一个简单的评估方案去规避这类问题。该评估方法对模型之间的偏差处理具有鲁棒性,这也将显着影响最终结果。论文进行了丰富的实验,并使用本文的评价方法评估了集中现有方法的性能。

 

 

作者首先分析了现有方法在打分函数以及得分分布方面的异常。一般而言,评估一个KGC方法时,对于给定三元组(h,r,t),其尾实体t的预测通过对所有形如 的三元组得到打分得到。表示全部实体的集合。在分析一些最新的神经网络方法时,一些负例的得分与验证集三元组的得分是想相同的(如图3所示)。

 

 

而纵观整个KG中的三元组,作者对比了ConvKB,CapsE与ConvE等三个方法,前两者均出现了上述异常情况。

 

 

究其原因,作者在FB15k-237数据集上发现,对于ConvKB和CapsE方法来说,分别由87.3%和92.2%的神经元在使用ReLU激活函数后变为了0,但是这个情况对ConvE的影响则小得多(41.1%),由于几乎所有的神经元都为0,也导致了前两种方法在不同三元组上的表示结果趋同(因而得分相同)。

 

 

为了解决这个问题,作者提出了一种新的KGC评估方案,即对于一组候选三元组集,如果模型对其中多个三元组给出了相同的打分,则其中一个应该被选出。假定三元组的排序基于固定的方式,作者设计了以下三种不同评估方案:

 

1.TOP:正确的三元组放在候选集的头部

 

2.BOTTOM:正确的三元组放于候选集尾部

 

3.RANDOM:随机安排正确三元组的位置

 

 

数据方面,作者使用了FB15k-237,并将对比模型分为了两组:

 

未受影响的:即不同评估方案下能够获得一致结果的方法,包括ConvE,RotatE和TuckER

 

受影响的:ConvKB,CapsE,KBAT以及TransGate

 

评估的指标包括Mean Reciprocal Rank(MRR),Mean Rank (MR)以及[email protected]

 

最终结果如表2所示:

 

 

其中,RANDOM相比其他两者更为严格且公平

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注