Press "Enter" to skip to content

论文浅尝 | AI回答小学科学问题达到人类水平(OpenBookQA)

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

转载公众号 | 南大Websoft

 

AI 能否像人类一样学习掌握科学知识,理解运用常识知识,最终像人类一样参加并通过学科考试?近日,南京大学万维网软件研究组( Websoft )在人工智能评测集 OpenBookQA 上实现了突破,研发的 GenMC 模型取得了 92% 的正确率,首次达到了人类水平。

 

OpenBookQA 是美国艾伦人工智能研究院( Allen Institute for AI )发布的问答技术评测集,由小学 科学选择题组成,并提供了与之相关的核心科学事实作为课本。该评测集的目的是通过选择题考试,探究 AI 学习课本知识,以及在新的场景下利用知识的能力。除了课本知识以外,回答 OpenBookQA 中的问题还需要具备 广泛的常识,这对 AI 带来了比较大的挑战。

 

 

OpenBookQA 近年来吸引了包括谷歌、斯坦福等国际顶尖研究机构参与。在目前的排行榜上,由南京大学团队提出的 GenMC 模型以较显着的优势取得领先,其集成版本更是首次达到了人类在该评测集上的水平。

 

 

在 OpenBookQA 等选择题问答任务中,以往研究可分为两类范式 —— Text-to-Text 范式 与 Encoder-Only 范式 。其中,以 T5 、 UnifiedQA 为代表的 Text-to-Text 范式基于 encoder-decoder 模型,它将问题和所有选项拼接作为输入,以正确选项文本作为生成目标。这类模型的优势是将不同格式的自然语言处理 任务都统一构建为文本到文本( Text-to-Text ) 格式进行 联合训练 , 有利于学习到更多知识。但对于选择题这种分类任务, encoder-decoder 模型所学习的生成目标仅是对于输入的拷贝,这导致预训练模型的自然语言生成能力未被充分利用。而以 BERT 、 RoBERTa 为代表的 Encoder-Only 范式 则不考虑 decoder 部分的使用,将问题与每个选项拼接并独立输入 encoder ,仅依赖于 encoder 的自然语言理解能力学习和预测。

 

这两种范式均无法充分挖掘预训练模型 decoder 中蕴含的丰富知识,对于选择题这种分类任务,如何更自然地用好 encoder-decoder 模型是一项技术挑战。为此,南京大学团队提出了一种生成增强的选择题问答模型 GenMC ,更好地结合了 encoder 的自然语言理解与 decoder 的自然语言生成能力,在 OpenBookQA 等选择题问答任务上取得了不错的效果。

 

 

GenMC 受人类答题行为的启发而设计 —— 先阅读题干,从自己脑海的背景知识中联想可能的解题线索,再带着线索理解和对比选项得出答案。例如问题 “ 生产笔记本的公司所需的主要原料是什幺? ” ,在选出正确答案 “ 树 ” 之前, GenMC 能够通过题干生成常识线索 “ 纸 ” ,作为关联题干中的 “ 笔记本 ” 和正确答案 “ 树 ” 的中间概念,从而帮助模型更好理解题目并作答。 具体模型设计上, GenMC 由 “ 线索生成器 ” 和 “ 增强阅读器 ” 两部分组成。模型结构如下图所示:

 

1 、线索生成器模块以问题 Q 作为输入,得到线索的表示 H QC 。该模块使用完整的 encoder-decoder 模型对问题 Q 编码,取 encoder 最后一层作为问题的表示 H Q ,并以自回归的方式由 decoder 生成线索并取其稠密表示 H C 。为了增强对线索的理解与表示,使用 Transformer 对 H Q 和 H C 做交互,得到最终的线索表示 H QC

 

2 、增强阅读器模块以问题 Q 和第 i 个选项 O i 作为输入(在开卷设置中,检索文本也作为输入),对选项 O i 用线索增强理解后,选择出正确答案。该模块仅用共享参数的 encoder 部分对问题 Q 和选项 O i 编码,取 encoder 最后一层输出得到选项的上下文表示 H i QO 。接着采用 dual-attention 对 H QC 和 H i QO 做信息融合,并经 Pooling 和 MLP 层得到选项 O i 的得分。得分最高的选项被选为答案。

 

3 、训练目标由生成器 loss 和阅读器 loss 两部分相加而成。其中,生成器 loss 以正确答案的文本作为目标,以 teacher forcing 的方式训练;阅读器 loss 则通过交叉熵极大化正确选项的概率。

 

 

GenMC 基于四种不同的基础模型在五个数据集上进行了实验,其答题正确率均显着超越了相同配置的 Text-to-Text 基线模型。

 

 

这项研究成果已被自然语言处理领域的重要国际会议 NAACL 2022 录用,更多细节可查阅论文及获取源代码:

 

论文标题: Clues Before Answers: Generation-Enhanced Multiple-Choice QA

 

论文链接: https://arxiv.org/pdf/2205.00274.pdf

 

源码链接: https://github.com/nju-websoft/GenMC

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注