Press "Enter" to skip to content

【工业界应用揭秘】知识图谱在推荐等场景下的应用实践(附下载链接)

导读: 知识图谱是一种特殊的图结构,它包含了语义信息与图结构信息。近年来,无论是工业界还是学术界,都陆续提出了自己的知识图谱构建平台,知识图谱被广泛应用在推荐、医疗等行业场景。

 

下面列举几个比较成熟的应用案例。

 

01

 

生活服务领域知识图谱“美团大脑”

 

美团所涉足的生活服务领域需要大量知识。为了优化商家和用户体验,美团NLP中心从2018年开始着手构建了生活娱乐领域超大规模的知识图谱——美团大脑。

 

美团在将知识图谱应用到推荐场景的过程中 ,主要面临着可解释性需求强烈,涉及领域多、差异大,数据稀疏,时空场景复杂 四大难题 。

 

以下重点总结了美团在解决第一个难题的过程中形成的方法框架与具体实践经验。

 

1. 图谱结构信息化展示

 

知识图谱最典型的应用是结构化信息展示。例如,从药品的说明书中挖掘出药品的功效来展示给消费者;将知识图谱利用在商品筛选项中,如用户搜索薯片时向其展示按口味区分的筛选项,从而使他能够快速地选择符合口味的薯片进行购买。

 

 

2. 利用图谱路径引导推荐

 

除了利用知识图谱来向用户进行结构化信息展示之外,还可以利用图谱路径来引导推荐。例如,在相关搜索-召回的业务场景,当一个用户输入一个query以后下滑了很久都没有进行点击,就可以为其推荐一部分更好的query 。

 

 

这里采用了2种具体的方法。

 

第一种方法是直接使用知识图谱路径召回 ,将query对应的实体在图谱中有连接的下位实体推荐给用户,如“奶茶”对应的“珍珠奶茶”、“香草奶茶”等。

 

第二种方法是利用embedding进行召回 ,具体做法是将用户历史query以及点击poi进行构图,之后使用GNN模型来训练embedding。当用户输入一个query时,我们在训练好的向量空间中搜索query向量的近邻向量作为候选召回。

 

3. 基于图谱的知识推理生成推荐理由

 

以下图为例,左侧是知识图谱,可以通过它来学习每个用户到每个商户的路径分。比如学习到用户的家乡属于某一个城市,以及这个城市的特色菜品,同时这个菜品又隶属于某个商户,若此时这一路径在当前用户对当前商户的所有路径中得分最高,就可以按照这条路径生成推荐理由,如“和你一样的四川老乡也喜欢这家店的水煮鱼”。

 

 

本案例节选自

 

《AI技术应用案例手册》的

 

知识图谱模块(第201页)

 

扫码可阅读、下载此案例完整版 :point_down:

 

 

02

 

第四范式知识图谱平台Sage Knowledge Base

 

知识图谱现逐渐被应用到QA问答系统、推荐系统、新药发现、股市预测等领域,在这个过程中,第四范式也建立了低门槛、全流程的知识图谱平台Sage Knowledge Base。

 

本案例旨在从三元组到子图的维度来介绍自动化知识图谱表示学习的相关技术。

 

知识表示学习旨在学习将知识图谱中的符号(包括实体和关系)映射到一个低维的向量空间。整体框架如下图所示。

 

 

AutoML将搜索空间和搜索目标包装成一个上层的优化问题,从而使得整个超参数优化问题可以转化为一个Bi-level的优化过程。面对复杂的数据以及多样的任务,如果想要进行统一的建模则需要丰富的专家知识才能完成,而AutoML可以有效地降低建模的门槛。

 

 

下面重点分享针对知识图谱表示学习的模型设计。

 

1. 基于三元组的模型

 

基于三元组的模型,主要有以下几个:

 

首先是 基于 平移距离的模型 。

 

随着神经网络的发展,如基于 多层感知器(MLP)的模型、基于卷积神经网络的模型(ConvE)以及基于递归神经网络的模型(RSN) 被业界提出,用来建模三元组的知识表示学习。

 

最后一类是 双线性模型 ,它们也是基于三元组的知识表示学习中效果最好的一类。双线性模型的表达能力强且模型复杂度不高,但依然存在泛化能力不足的问题。基于双线性模型的表达形式以及之前方法存在的问题,第四范式提出了AutoSF,旨在自动化搜索relation矩阵的建模方法,从而达到统一建模的目标。

 

 

AutoSF及其改进版本AutoSF+分别设计了两种算法来优化搜索效率。

 

 

在AutoSF中,第四范式 提出了渐进式的搜索算法 。以上图为例,首先搜索在测试集中表现最好的relation矩阵,且限制其仅含有四个非零元素;在此基础上,每次迭代都进一步增加非零元素的个数,并搜索对应条件下评价指标最好的relation矩阵。

 

但是,渐进式搜索算法属于贪心算法,容易得到局部最优解。为了解决这个问题,第四范式在AutoSF+中 提出了基于遗传算法的搜索模式 。具体地,第四范式在每次迭代时使用变异和交叉操作对矩阵进行修改,然后在所有修改的矩阵中保留一部分性能较好的矩阵,最终找到更好的relation矩阵。

 

 

同时, 在选取矩阵的过程中考虑领域的性质 。由此,第四范式设计一个过滤器来减少冗余评估。此外,第四范式还定义了一个基于relation矩阵的对称性来进行模型性能预测的预测器,它通过矩阵中包含的对称性相关特征,使用两层MLP对模型性能进行打分。

 

2. 基于关系路径的模型

 

 

三元组的表达能力有限,如果将三元组中的头实体和尾实体通过图中一条路径进行连接,就可以得到更加丰富的信息。首先,三元组本身会被保留在路径之中;其次,路径可以表达更复杂的关系;此外,路径中还包含了多个三元组之间的长链信息。

 

 

PTransE基于TransE做了拓展,将三元组改造为一系列由多个关系组合而成的路径。类似于TransE,头实体和尾实体之间的关系可以使用平移向量之和来表达。具体公式如上图所示。但是,与TransE存在的问题一样,它无法解决一对多与对称关系,所以PTransE的建模效果一般。

 

 

RSN(Recurrent Skipping Network)使用RNN来建模路径,其中实体节点加入了skip connection结构,最终输出对应的实体与关系embedding。RSN可以很好地建模长期信息,但它很难有效地捕捉三元组内部的语义信息。

 

 

为了解决前述方法的缺陷,第四范式提出了 Interstellar模型 ,以每个三元组为单位将路径进行切分。针对每个三元组,可以对模型的建模结构进行搜索。如果将三元组之间的路径断开,那幺模型就可以退化为基于三元组的建模方式;如果我们将路径中间每个三元组的尾实体去除(输入0向量),那幺模型就退化为PTransE(只建模关系向量表达)。通过这一策略,可以使得模型自动化地捕捉路径中包含的不同语义信息与性质。

 

 

在设计模型的搜索算法时,在宏观层面(connection、combinators),第四范式使用stand-alone的方法得到对模型结构配置的准确效果评估,而在微观层面(activation、weight matrix)使用one-shot的方法得到高效的模型评估结果。

 

 

 

3. 基于图神经网络的模型

 

 

R-GCN、CompGCN、KE-GCN三种方法都是以浅层的embedding作为模型输入,使用关系型GNN进行节点聚合得到高层embedding,再通过TransE、ConvE等打分函数来得到最终得分。但是这类型方法需要加载完整的知识图谱,导致其可扩展性较差;另外,这类模型依赖于打分函数,且使用GNN后对模型最终效果的提升有限。

 

 

2020年业界提出了GraIL模型,它基于给定的头实体与尾实体将包含它们的子图从原图谱中抽取出来,随后基于节点与头尾实体的距离进行entity labeling,最后使用GNN对子图进行消息传递与更新,最终可以得到以头实体与尾实体组成的三元组的打分。GraIL不需要经过训练的embedding就可以做归纳式推理,这就使得其对于未知节点也可以使用图结构进行打分,但是子图的抽取与子图中节点标签的生成的时间复杂度较高。

 

 

基于前述模型的缺点,第四范式提出了 RED-GNN的模型 。首先利用关系路径,将图中得到的路径增强至同一长度,具体做法是引入了identity关系;随后将所有路径进行堆叠,得到一个关系子图(有向图,保留了信息的传播方向)。

 

 

由于关系子图中层与层之间的路径存在overlapping,可以利用动态规划的方式来一次性建模所有共有相同头实体的关系子图。如上图所示,左侧是传统的GNN计算方法,需要对每一个关系子图进行单独的计算,而右侧展现了RED-GNN的计算方法——使用递归计算与并行计算,使得GNN一次性建模多个关系子图。GNN的信息聚合是基于实体之间的关系信息,并且采用了attention机制进行自适应融合。

 

 

上图展示了对比实验的结果。RED-GNN是一个纯粹使用子图结构的模型,并没有使用实体embedding,所以它同时适用于transductive以及inductive的推理。从实验结果中可以发现,即使模型没有使用任何embedding信息,它的效果依然优于绝大部分方法。由于模型的参数量较少,且设计了基于动态规划的算法,RED-GNN的计算效率相较于GraIL有了很明显的提升。

 

本案例节选自

 

《AI技术应用案例手册》的

 

知识图谱模块(第140页)

 

扫码可阅读、下载此案例完整版 :point_down:

 

 

03

 

知识图谱的其他应用案例

 

除了上述两个案例外,知识图谱还被应用在学术界,比如Mila人工智能实验室重点研究 基于逻辑规则的图谱推理(RNNLogic: Learning Logic Rules for Reasoning on Knowledge Graphs) ;知识图谱也与传统行业相结合,比如中国电力科学研究院有限公司人工智能应用研究所提出了一套 电力领域知识图谱 。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注