Press "Enter" to skip to content

论文浅尝 – ECIR2021 | 两种实体对齐方法的严格评估

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

笔记整理 | 谭亦鸣,东南大学博士生

 

 

来源: ECIR 2021

 

在这篇工作中,作者对两种SOTA实体对齐方法做了广泛的研究:首先仔细分析了现有benchmark的过程,并论证了其中存在一些缺陷,使得原始方法给出的实验结果之间可能存在不可对比的情况;另一方面,作者怀疑存在一种普遍的直接对测试集做超参数优化的处理,这种情况将会导致论文发表的实验性能的可靠性(价值)不那幺高。因此,本文筛选了一种具有代表性的benchmark数据集样本,分析它的特征,同时,考虑到实体的表示对于系统性能的决定性影响,作者对实体表示的不同初始化方案也进行了测试。进一步的,作者使用共同的训练/验证/测试集在所有数据集和所有方法上进行了实验评估,从结果上看,虽然大多数情况下,SOTA方法都优于baseline,但是当数据集包含噪声时,则出现明显性能下降。

 

首先作者对现有方法的共性做了说明:

 

1.大多数方法基于GNN

 

2.使用基于表示学习的实体名特征

 

3.考虑了KG中不同类型的关系(在预处理过程中聚合不同类型的关系)

 

基于这些共性,作者选择了在近期工作中效果较好的关系感知-双图卷积网络(RDGCN),此外,也引入了深度图匹配共识(DGMC)出于以下两个因素:i.前面提到的工作未提到该方法 ; ii.在该方法没有使用关系类型信息的条件下,取得了非常好的性能。

 

实体对齐数据集分析:

 

 

表1列举了目前实体对齐任务所使用的公开数据集:

 

DBP15K:目前最流行的对齐评价数据集,包含来自DBpedia的三个子集(语言对),数据集存在多个涵盖共享对齐实体的变体,所有的对齐均为1->1的情况,从数据集的构建方法来看,除共享实体之外的其他实体(排他实体?exclusive entity)之间不存在关系,导致这些实体的匹配过程复杂化,在实际应用中,它们也难以被确定。因此作者认为该数据集仅在一定程度上反映了部分真实用例。此外,作为PyTorch Geometric资源的一部分,DBP15k的另一个变体具有不同的对齐实体集,这就导致了这些已发布的方法之间并不能直接的对比它们之间的性能。因此,为了解决这个问题,作者使用了一个更小的JAPE变体,每个图谱包含19-20k实体。

 

OpenEA由基于度分布的采样方法从DBpedia,YAGO以及Wikidata中获取的KG pairs,其对齐也是1->1匹配,其中不包括exclusive entity,本文使用所有的KG pairs包含15k的实体。

 

WK3l15k是从维基百科提取的多语言KG pairs,作者也额外从平行三元组中抽取了对齐实体,图谱包含补充的exclusive entity,并且存在m->n的匹配情况。作者也是使用了15k规模的样本,每个KG包含15k左右的实体,语言对为英-德和英-法。

 

基于标注的初始化方法

 

Prepared translations:DBP15k数据集中命名实体一般先翻译为英语,然后使用Glove进行向量化处理;

 

Prepared RDGCN embeddings:OpenEA考虑到DBpedia与YAGO来自相似的数据源,它们的label往往是对等的。对于这类KG pairs,作者的做法是将这些label删去。然而RDGCN需要基于label的初始化,因此作者通过预定义的命名属性给出属性三元组,从而获取label。当无法通过属性找到label的时候则会选择使用实体的url替代。

 

Multilingual-BERT:WK3l15K上并没有实体嵌入相关的工作,因此这里作者使用M-BERT预训练模型处理这个部分,并使用最后四层之和为字符表示,并研究了总和,均值以及最大聚合作为超参数的情况。

 

 

实体对齐方法

 

本文主要评估了两种对齐方法:RDGCN以及DGMC。

 

与所有GNN方法类似,两个模型均采用了Siamese体系,因此对于所有的KG都使用了相同的模型以及相同的权重处理实体向量表示。得到实体表示之后,对齐方法计算一个affinity矩阵用于描述两个图谱上的实体之间的相似度。

 

RDGCN

 

RDGCN模型包括:

 

1.relation-aware message passing;

 

模型学习关系的重要性,并对由这些关系连接的对应实体的信息进行加权。

 

包含四个步骤(:

 

a.从实体表示获取关系文本,对于每个关系提取其上下文用于连接头尾实体平均表示;

 

b.DA表示对偶图注意机制,通过ReLU激活函数计算其注意力得分;

 

c.更新实体的表示;

 

d.应用一个从初始化表示到当前实体表示的跳跃连接;

 

2.standard message passing

 

利用一个邻接矩阵反映两个实体之间是否存在关系。

 

该部分由一系列的GCN层以及highway层构成,每层都通过以下方式运算:

 

 

DGMC

 

DGMC也包含两个部分:

 

1.enrichment

 

通过一系列GNN层利用邻居信息强化实体表示:

 

每层的计算方式为:

 

2.correspondence refinement

 

该部分首先针对每个实体计算其他子图中最接近的匹配,通过稀疏对应关系矩阵表示,而后对每个实体随机生成向量,并将它们发送到可能的匹配项。

 

实验

 

实验设置

 

评价的标准使用[email protected],衡量匹配实体top-1的准确性

 

考虑到过去的工作中没有一个统一的训练-验证划分,因此这里作者建立了一个标准训练验证测试的子集划分(70%用于测试,24%用于训练,6%用于验证),从而进行一个公平对比。

 

作者继续调整了每个数据集上各模型的参数设置,并采用了上述初始化方案(超参设置如表3)

 

模型训练的early stop条件基于[email protected]确定,并最终选出验证集上最好的模型进行测试比对(实验结果见表4)

 

 

首先从zero-shot的结果看,即使是最弱的环境(openEA 39.15%),单纯使用实体命名表示也是能够具有一定的准确性,因此与不使用该信息的模型进行对比是不公平的。在DBP15k上,可以看到Wu的初始化策略比Xu要强7%-9%。

 

模型性能对比

 

可以看到两者在三个数据集上均优于基线模型,但两者之间却没有明显的优劣差异。虽然DGMC与预期结果相比有所降低,但是在几乎所有的DBP15K子集上,均有一定性能优势,这论证了较小的测试集可能导致更好的实验结果。

 

此外,不同的初始化也回影响模型的性能,尤其反映在DGMC(ja-en)以及GCN-Align(fr-en)。RDGCN在OpenEA子集上具有明显优势。

 

WK3L15k数据集的结果是值得关注的例外,DGMC方法的性能因其对应关系的细化而被认为对噪声具有鲁棒性,但它的性能并不优于zero-shot结果。

 

可以得到结论,对于基于GNN的实体对齐方法来说,其性能的主要影响还是来自超参数。

 

 

表5给出了OpenEA上对于RDGCN模型参数的消融实验结果:

 

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注