Press "Enter" to skip to content

KELM:将知识图与语言模型预训练语料库集成

大型预训练自然语言处理(NLP)模型,例如 BERTRoBERTaGPT-3T5REALM ,利用了从Web派生并针对特定任务数据进行微调的自然语言处理语料库,并在各种NLP任务中取得了长足的进步。但是,仅自然语言文本就代表了有限的知识范围,事实可能以多种不同方式包含在单词句中。此外,文本中存在非事实信息或不当信息最终可能会导致结果模型产生 偏差

 

替代的信息来源是 知识图 (KGs),它由结构化数据组成。KG 本质上事实的, 因为信息通常是从更受信任的来源中提取的,并且后期处理过滤器和人工编辑器可确保删除不适当和不正确的内容。因此,可以将其合并的模型具有提高的事实准确性和降低 不当性 的优点。但是,它们的不同结构格式使得很难将它们与语言模型中的现有预训练语料库进行集成。

 

NAACL 2021 接受的“ 用于知识增强的语言模型预训练的基于知识图的合成语料库生成 ”( KELM )中探索了将 KG 转换为合成自然语言句子以增强现有的预训练语料库,从而将其集成到预训练语料库中的能力。 -在不进行架构更改的情况下训练语言模型。为此,研究人员利用可公开获得的 英文Wikidata KG并将其转换为自然语言文本,以创建合成语料库。然后将合成语料库作为一种将自然语言语料库和KG集成到预训练中的方法,来增强 REALM (一种基于检索的语言模型)。目前已经 公开发布了该语料库 为更广泛的研究社区。

 

将KG转换为自然语言文本KG

 

包含以结构化格式显式表示的事实信息,通常以[主题实体,关系,对象实体] 三元组的形式显示 。一组相关的三元组称为 实体子图 。如下图所示。KG可以看作是互连的实体子图。

 

将子图转换为自然语言文本是NLP中的一项标准任务,称为 数据到文本生成 。尽管在基准数据集(例如 WebNLG)的 数据到文本生成方面取得了重大进展,但是将 整个 KG转换为自然文本仍然存在其他挑战。大型KG中的实体关系比小型基准数据集更为广泛和多样。此外,基准数据集由预定义的子图组成,这些子图可以形成流利的有意义的句子。对于整个KG,还需要创建这样的对实体子图的分割。

如何将实体子图 (气泡中) 转换为合成自然句子 (最右边) 的示例说明。

 

为了将Wikidata KG转换为合成的自然句子,google工程师开发了一个名为“来自KG Generator的文本”(TEKGEN)的语言化程序,它由以下组件组成:启发式对齐的Wikipedia文本和Wikidata KG三元组的大型训练语料库,将KG三元组转换为文本的文本到文本生成器( T5 ),实体子图创建器,用于生成将要被口头表达的三元组组,最后是用于去除低质量输出的后处理滤波器。结果是一个包含整个Wikidata KG作为自然文本的语料库,将其称为 知识增强语言模型(KELM)语料库 。它由约1800万个句子组成,跨越约4500万个三元组和1500个关系。

将KG转换为自然语言,然后用于语言模型扩充

 

集成知识图和自然文本以进行语言模型预训练

 

工程师评估表明,KG语言化是将KG与自然语言文本集成的有效方法。通过增强REALM的检索语料库来证明这一点,REALM的检索语料库仅包含Wikipedia文本。

 

为了评估语言化的有效性,工程师使用KELM语料库(即“语言化三元组”)增强了REALM检索语料库,并将其性能与 不带 语言化的串联三元组的增强效果进行了比较。使用两种常见的开放域问答数据集( 自然问题网络问题), 通过每种数据增强技术来测量准确性。

 

甚至相连的三元组都增强REALM可以提高准确性,从而有可能添加显式或根本不以文本形式表示的信息。但是,用三重言语进行增强可以使KG与自然语言文本语料库更平滑地集成。工程师还在称为 LAMA 的知识探测上观察到了相同的趋势,该方法使用空白问题来查询模型。

 

结论

 

借助KELM,工程师提供了一个 公开 的KG 语料库 ,作为自然文本。KG言语化可用于将KG与自然文本语料库相集成,以克服其结构差异。它具有用于知识密集型任务(例如 问题解答)的 实际应用程序,在这些应用程序中,必须提供事实知识。而且,这样的语料库可以应用于大型语言模型的预训练,并且可以潜在地减少低质量并改善事实性。工程师希望这项工作能够鼓励在将结构化知识源集成到大型语言模型的预训练中取得更大的进步。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注