Press "Enter" to skip to content

论文浅尝 – AAAI2020 | 小样本知识图谱补全

笔记整 理 | 刘克欣,天津大学硕士

 

链接: https://arxiv.org/pdf/1911.11298.pdf

 

动机

 

知识图谱对于许多下游应用(例如搜索,知识问答和语义网)至关重要。然而,现有知识图谱面临不完整的问题。知识图谱补全工作能让知识图谱变得更加完整,是目前人工智能领域的一个研究热点。现有的知识图谱补全工作大多需要大量的实体对来进行关系推断。但是,实际数据集中关系的频率分布通常具有长尾问题, 关系的很大一部分在知识图谱中只有很少的实体对。处理数量有限(数量很少)的实体对的关系是非常重要且具有挑战性的。针对上述问题,文章提出了一种少样本关系学习模型 FewShot Relation Learning model (FSRL),其目的是学习一个匹配函数,该函数可以在给定每个关系的少量参考实体对的情况下,有效地推断出真正的实体对。

 

亮点

 

文章 的亮点主要包括:

 

(1) 首次提出小样本情景下的知识图谱补全任务,更适合实际场景;

 

(2) 提出了一种融合了一些可学习神经网络模块的小样本关系学习模型解决小样本知识图谱补全问题。

 

概念及模型

 

针对小样本知识图谱预测,F SRL 要解决的具体问题是:给出少量实体对(参考集)的情况下,根据给定头实体
和查询关系
预测尾实体

 

FSRL由三个主要部分组成:

 

(1)为每个实体编码异构邻居;

 

(2)对每个关系的少量参考实体对进行汇总;

 

(3)将查询对与参考集进行匹配以进行关系预测。

 

模型整体框架如下 :

 

 

编码异构邻居

 

此模块功能为一个关系可感知的异构邻居编码器。基于给定头实体
的关系邻居的集合被表示为:

 

 

其中, 表示背景知识图谱,  , 分别表示第 个关系和相应的 的尾部实体。

 

文章引入注意力机制计算 的异构邻居特征,并使用以下公式计算 的e mbedding :

 

 

其中, 和 分别表示预学习的 和 的e mbedding 。

 

融合小样本参考集

 

此部分的功能是对参考集 中的每个关系 的embedding进行聚合。

 

 

其中,
是一个聚合函数。

 

基于图的embedding,作者设计了一个循环自编码聚合器。更具体来说,实体对embeddings 被顺序喂到循环自编码器:

 

 

其中, 是参考集的大小。编码器和解码器的隐藏状态 和 通过以下公式计算:

 

 

优化自编码器的重构损失如下:

 

 

为了形成参考集的embedding,作者聚合了所有编码的隐层状态并通过残差连接与注意力权重机制进行拓展。 的计算公式如下:

 

 

其中, 为聚合的embedding的维度。

 

匹配查询集和参考集

 

在前两个模块的基础上,现在可以基于参考集 有效的对每个查询实体对 进行匹配操作。首先通过对查询实体对 和参考集 分别进行 与 操作,从而分别得到两个embedding向量:

 

为了衡量两个向量的相似性,作者采用了一个循环处理器 去完成多步匹配。第 个过程步的如下:

 

 

其中,输入为 , 隐藏状态为 , 细胞状态为 。 过程步后的隐层状态 记为:

 

目标函数和模型训练

 

对于每一个关系 ,我们随机选择一些正样本实体对 并把它们作为参考集 。剩余的实体对 作为正样本查询对。此外,也构建了负样本实体对 。排列损失记为:

 

 

其中, 为标准的hinge 损失, 表示安全边界距离(本文取值为5)。

 

最终优化函数如下:

 

 

其中, 表示参考集聚合的重构损失。 表示两者的权衡因子(本文取值为0.0001)。

 

理论分析

 

实验

 

作者采用了 2 个公开数据集进行实验,分别是: NELL (Mitchell et al. 2018) 和 Wikidata (Vrandeˇci´c and Kr¨otzsch 2014) 。首先是有效性实验,模型的评价指标为: Hits@k 和 MRR 。

 

 

图邻居编码器方法(GMatching)优于关系嵌入方法,表明将图局部结构和匹配网络相结合对于学习实体嵌入和预测新关系的事实是有效的。

 

本文提出的FSRL在所有情况下均能达到最佳性能。在NELL和Wiki数据中,相对于最佳基准方法的平均相对改进分别高达34%和15%。它证明了F SRL 模型的有效性。异构邻居编码器和递归自动编码器聚合网络有利于知识图谱中的小样本关系预测。

 

除了所有关系预测的整体性能,我们还进行实验以评估模型对于NELL测试数据中每个关系的预测性能。在大多数情况下,FSRL的性能要优于GMatching。它证明了我们的模型对于不同的关系是鲁棒的,并且在大多数关系上都优于GMatching。

 

 

作者还进行了实验以分析小样本中每类样本数K的影响。

 

 

随着K的增加,两个模型的性能都会提高。这表明较大的参考集可以为该关系产生更好的参考集嵌入。在不同的K中,本文的模型始终优于GMatching,这证明了所提出的模型对于知识图谱中的小样本关系补全的稳定性。

 

文章还可视化了每个关系的正候选实体对和负候选实体对的2D嵌入。

 

 

从图中可以看出,两种方法都能很好地区分正候选和负候选的嵌入。然而,本文的模型取得了更好的性能,并且两个类的嵌入明显不同,这进一步证明了所提出的模型在可视化方面的优越性能。

 

总结

 

文章提出了一个新的小样本知识图谱补全问题,并提出了一种创新的小样本关系学习模型,即FSRL,以解决该问题。FSRL对关系感知的异构邻居编码器、递归自动编码器聚合网络和匹配网络进行联合优化。在两个公共数据集上的实验表明,FSRL方法的性能优于现有的基准方法。此外,消融研究验证了每个模型组件的有效性。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注