Press "Enter" to skip to content

ICLR 2022 :GNN-LM基于全局信息的图神经网络语义理解模型获单项满分

 

近日,深度学习国际顶级会议 ICLR 2022 向作者公布了论文录用结果。香侬科技 3 篇论文被大会收录,研究内容覆盖通用自然语义理解、  NLP 神经网络模型安全性、自动机器学习 (autoML) 。其中与浙江大学、新加坡南洋理工大学等单位合作提出的 基于图神经网络的语义理解模型 GNN-LM 获得了单项评审满分( 10 分) ,以下为该文章具体介绍:

 

论文标题:

 

GNN-LM: Language Modeling based on Global Contexts via GNN

 

作者:

 

Yuxian Meng, Shi Zong, Xiaoya Li, Xiaofei Sun, Tianwei Zhang, Fei Wu, Jiwei Li

 

论文链接:

 

https://arxiv.org/abs/2110.08743

 

接收会议:

 

ICLR 2022

 

代码链接:

 

https://github.com/ShannonAI/GNN-LM

 

概述

 

如今大多数 NLP 模型可以认为是遵循闭卷考试模型:在标注数据集上,模型训练 N 个 epoch,  可以比作学生看了 N 遍书,然后把他们“背”下来。在测试的时候,学生需要把书合上,不允许再去参考训练数据。 这种闭卷考试策略有两个局限性:一是基于记忆的很难记住训练集中长尾的例子,二是记忆整个训练数据所需的存储空间过大。

 

本文提出了一个全新的语义理解模式,将闭卷考试转化为开卷考试的语义理解模式:在测试的时候,模型允许参考训练数据。这样就将之前的“背”,转变成了“抄”,模型可以直接使用训练集中相关的例子来协助决策,这样问题的难度就大大降低了。以语言模型来举例,例如,给定前文“ J.K. 罗琳最知名的作品是”来预测后面的词“哈利波特”,如果语言模型可以引用训练集中相关的上下文“ J.K. 罗琳撰写了哈利波特系列书籍”,那幺它就会更容易将下一个 token 预测为“哈利 ” ,就像是有参考书的开卷考试比闭卷考试要更简单一样。

 

基于这一认识, 本文 提出了基于图神经网络的语义理解模型的 GNN-LM ,它将传统的 NLP 的闭卷模式,转变为开卷模式:在推理过程中允许参考训练数据。 模型首先以输入的样例为 query ,首先在训练数据中通过 K 近邻( KNN )寻找相似的样例为邻居。找到了相似的邻居之后,我们需要考虑不同的邻居不同的影响,有的影响更大,有的影响更小。为了自动学习这些不同的影响,我们通过图神经网络 GNN 建立输入样例与邻居的关系。换言之,输入样例的表征基于输入样例与邻居通过 GNN 得到。如下图所示,我们想预测   “ The movie is ”后面即将出现的词,我们用“ The movie is ”作为 query,  找到数据中相似的邻居,其中包括“ This movie is great ” ,  “ Those movies are bad ”   以及   “ The movie is what I like ”。我们将这四句话建立起一个图结构 : “ The movie is”  中的  “movie”  与其他近邻中的  “movie” 建立边,“ is ”   与其他近邻中的  “is” 建立边。然后通过 GNN 得到表征。参考这些相似的例子,得到预测结果。

 

 

实验表明,该方法提出的 GNN-LM 框架使基础 LM 有了显着的性能提升,在三个广泛使用的语言模型数据集性能达到 SOTA 结果。

 

GNN-LM

 

首先使用基础 LM 对输入的上文
进行编码,得到其表示
,然后使用自注意力增强图神经网络在检索到的上下文和输入的上文之间进行消息传递,从而更新上文的表示,再结合 LM 计算得到的概率
和检索到的上下文提供的额外概率,来估计

 

构建有向异质图

 

GNN-LM 框架的第一步是通过计算余弦相似度,检索
个和输入上文的表示
最相近的上下文作为邻居
,使用这些邻居上下文的前
个 token 构建为有向异质图
,其中节点是 token ,分为
两种,
是输入
中的 token ,而
来自检索到的相似上下文。边同样也分为两种:

是连接同一条上下文内的 token ,而
连接不同的上下文的 token ,也就是

之间的边。将节点对应的 token
向上下文两侧进行扩充得到
,使用
作为节点初始表示。

 

使用 GNN 传递信息

 

使用自注意力增强的图神经网络( GNNs )根据构造的图来聚合和过滤 token 信息:

 

 

其中
代表目标节点
对源节点
在关系
下的重要程度,
是邻居
对节点
将要传递的消息。

 

· Attention

 

像 Transformer 一样,对于每条边
,将目标节点
的表示映射到 query 向量
,源节点
的表示映射到 key 向量
,然后使用缩放点积计算注意力权重,并在所有相同类型的边上进行归一化:

 

 

· Feature

 

Single-head 的特征定义为:

 

 

· Aggregate

 

使用注意力权重对特征进行加权聚合,并映射到
维空间:

 

 

结合基于 kNN 的预测概率

 

结合 kNN-LM ()提出的概率线性插值方法增强 GNN-LM 的性能,对输入上下文
,使用其 k 近邻
的概率对 LM 计算出的概率进行直接扩充:

 

 

这一部分更详细的介绍可以参考账号之前的文章: https://zhuanlan.zhihu.com/p/90890672

 

实验

 

我们在三个广泛使用的单词级、字级和字符级语言模型数据集上进行了实验: WikiText-103 、 One Billion Word 和 Enwik8 。下图为主要实验结果,我们有如下观察:

 

 

在 WikiText-103 数据集上, GNN-LM 将基础 LM 的困惑度从 18.7 降低到 16.8 ,这证明了 GNN-LM 体系结构的有效性,并且 GNN 和 kNN 的结合进一步将性能提升到 14.8 。

 

 

在 One Billion Word 上, GNN-LM 仅增加了 27M 参数就帮助基础  LM 减少了 0.5 的困惑度。作为对比, Baevski&Auli ( 2018 )使用了 560M 额外参数,将困惑从 23.9 减少到 23.0 。

 

 

在 Enwik8 上, GNN-NN-LM 比基础 LM 快 0.03BPC ,且仅使用 48M 参数即可实现 1.03 BPC ,与使用 88M 参数的 18L Transformer XL 相当。

 

复杂度分析

 

 

由于需要为反向传播维护每个节点的隐藏表示,训练 GNN 需要的内存大约是普通 LM 的两倍。我们提出了两种策略来缓解空间问题:首先在较小邻居数量的
上训练,再在
上微调;对于依赖关系较长的数据集(如 WikiText-103 ),将上下文截取为较小的长度( 128 )。图( b )显示了 WikiText-103 中基础 LM 和 GNN-LM 在速度上的比较。我们观察到, GNN-LM 的速度大约是基础 LM 的 8 到 20 倍。

 

消融实验

 

由上图( c )可见,每个 token 的邻居数量显着影响可以从训练集中检索多少信息。当 k 从 8 增加到 128 时,测试困惑度单调降低。

 

有向异质图的构造和概率计算都依赖于 kNN 的检索。我们使用召回度量来评估 kNN 检索的质量。当被选为邻居的上下文的下一个 token 与要预测的 token 相同时,视为召回。按照邻居召回率分为 5 堆,可以看到,当 kNN 检索的质量比较高时, GNN- LM 比基础 LM 效果提升更明显。

 

 

示例研究

 

 

表中的示例显示了输入和相应提取的三个邻居上下文。这两个例子表明,提取的上下文在语义上与输入有很强的联系,因此利用邻居信息将有利于模型预测。

 

小结

 

本文提出了 GNN-LM ,将图神经网络与语言模型相结合,通过允许在整个训练语料库中引用相似的上下文,扩展了传统的语言模型。使用 k 近邻检索与输入的表示最相似的邻居,我们为每个输入构建了一个有向异构图,其中节点是来自输入上下文或检索到的邻居上下文的 token ,边表示 token 之间的连接。然后利用图神经网络从检索到的上下文中聚合信息,以解码下一个 token 。实验结果表明, GNN-LM 在标准数据集中优于强基线,并且通过与 kNN-LM 结合,能够在 WikiText-103 上取得最优效果。

 

自成立以来,香侬科技十分重视基础科学和技术创新性的研究,目前已累计在自然语言处理、深度学习等人工智能相关领域的国际顶尖会议上发表重要论文 50 余篇,科研水平与实力长期保持所在领域世界级第一梯度。未来,香侬科技将继续   加大基础科学和前沿技术研究投入,并将技术创新与行业实际需求紧密相连,通过加速科研成果转化带动人工智能科研探索与应用落地。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注