Press "Enter" to skip to content

京东言犀斩获离散推理型阅读理解DROP冠军 挑战更高难度人机对话

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

近日,在由Allen AI研究院发起的离散推理型阅读理解榜单DROP[1]上,京东智能客服言犀团队(JDAI research)提出的NR-Rino模型以90.26%的准确率登顶DROP Leaderboard冠军,进一步拉近了机器与人类在该任务上的水平差距。

 

 

图1 DROP榜单排名示意

 

机器阅读理解 要求机器阅读并理解人类自然语言文本 , 已成为判断机器是否具有自然语言理解能力的重要标准。随着大规模预训练语言模型的发展,人类在许多单轮问答场景中已被机器超越。随之,更有挑战的离散推理型阅读理解数据集DROP(A Reading Comprehension Benchmark RequiringDiscrete Reasoning Over Paragraphs)被提出,要求模型在语义理解的基础上,具备数值推理能力。因此,本次DROP数据集任务也吸引了国际众多参赛队伍,包括Google Research、中国平安、腾讯等多个顶级机构。

 

更复杂的离散推理型自然语言理解任务

 

随着Transformer[2]网络以及BERT[3]等预训练语言模型的提出,机器问答水平在特定数据集,如SQuAD[4]上逐步超越了人类水平,这意味着深度神经网络模型具备了较好的文本匹配能力和浅层的语义理解能力。然而当问题变得复杂,如问题中涉及多种约束条件、逻辑推理特别是数字方面的推理时,模型的表现往往不佳。

 

因此,离散推理型阅读理解数据集DROP被提出,要求模型在语义理解的基础上,具备数值推理能力,包括但不限于加法、减法、统计、排序等。表1展示了DROP数据集中主要推理类型所占比例及其详细示例。可以看出,问题的答案无法通过直接与文章匹配得到,需要结合不同位置的数字及其上下文表示,来进行推理得出。例如,表1中的减法示例,模型通过给定的提问,首先判断“Untitled(1981)”这幅画被售卖了“$16.3 million”,然后与“estimation(预估价格)12 million”做比较,最后得出“more dollars(溢价)”为“4300000(16.3 million-12 million)”。此外,加法、排序、统计等符号运算对模型的综合推理能力也是极大的挑战。

 

 

表1  DROP数据集示例

 

基于文本的离散推理型阅读理解在许多真实场景中都有涉及,例如金融报告分析、体育新闻数据分析等。目前的模型方案主要分为两类:语义解析和多头预测器。基于语义解析的方法首先被提出用于离散推理型问答。其中一类方案[5]先将无结构化文本转换为结构化表格,进而利用表格问答的方法来回答此类问题。另一类方案,例如NeRd[6],定义了一组离散推理型问答的领域语言,采用编码器-解码器结构将上下文编码为向量表示以及生成语法约束程序,通过执行解码出来的程序得到问题的答案。基于语义解析的方法需要人工设计规则或者人工标注,代价较大;此外基于语义解析的方法硬性地选择一个程序容易因为错误传导而导致模型的效果不佳,但是此类方法揭示了推理的过程,可解释性强。

 

基于多头预测器的方法是将离散推理型问题建模成一个多头预测器结构,通过多任务学习的方式解决各种答案类型问题。NAQANET[1]采用多个预测器来生成相应的答案类型,使得模型可以解决文本片段抽取、计数和算术表达式等类型的问题。为了在语义表示中融入数字之间大小关系,进而提升模型离散推理能力,NumNet[7]构建了数字图并基于图卷积网络进行多步推理。NumNet+ 利用预训练模型更好的语义表示能力在NumNet 基础上进一步提高了离散推理性能。QDGAT[8]提出了一个问题指导的图注意力网络,基于实体和数字节点组成的异构图进行推理,将实体和数字信息融入到网络表征中,提升了模型效果。基于多头预测器结构的离散推理型问答系统在相关任务上表现较好,但是由于其没有对离散推理进行显式的建模,可解释性相对较差。

 

京东言犀NR-Rino模型对基于多头预测器方法进行创新和改进

 

本次刷新榜单Top1的模型NR-Rino采用了 多头预测器的方法, 主要从“模型结构”和“训练策略”两个角度进行了改进与创新。

 

 

图2  NR-Rino模型结构

 

结构图中带颜色填充圆形表示数字token表征,橙色表示问题Q中的数字,绿色表示文章P中的数字。其余无色填充圆形表示文本token表征。

 

NR-Rino采用了编码层、数字推理层、预测层的三级结构,基本框架如图1所示。其中,编码层为预训练语言模型ALBERT.xxlarge,用于编码输入的文档和问题,以得到相应的语义表征:

 

在此之上,为了能让模型更好的进行数字推理,NR-Rino融入了推理层对输入序列中的数字进行了额外的建模。不同于之前的SOTA模型NumNet、QDGAT等通过图神经网络(GCN、GAT)来建模数字之间的关联,NR-Rino的推理层为多层Transformer,考虑了每个数字在context中的position信息,提高对数字与context之间的相关性建模。

 

其余文本token,我们未做进一步更新。此时由于的改变,编码表征随之进行了更新。

 

在推理层之后,我们对token的表征做了多种融合以得到不同粒度的特征来指导最终的预测。例如,number表征、passage表征、question表征等。以number表征为例,融合方式如下公式所示:

 

同理得到 以及 。最终,模型的预测层会首先计算答案下述4种类型种的哪一类型。

 

 

根据答案类型,模型进一步预测答案:

 

1、答案从passage中抽取得到,

 

;

 

2、答案从question中抽取得到,

 

 

3、答案为统计类型(0~9十分类),

 

 

4、数学表达式,即为每个数字给出“0”,“-1”,“1”的标签,最后由表达式计算得出最终答案。以上文中提到的减法为例,“16.3”的标签为“1”,“12”的标签为“-1”,“1981”的标签为“0”。答案。以第i个数字表征为例,

 

.

 

除了模型结构外,NR-Rino还进行了如下的训练优化。充分利用预训练语言模型蕴含的知识。目标任务与预训练任务通常是不同的,这造成了预训练语言模型的参数随着微调的过程被完全改变,参数中蕴含的大量语言知识面临“遗忘灾难”的问题。针对此,我们对模型参数进行了正则化约束:在模型参数拟合目标数据集的基础上,尽量与语言模型原始参数保持一致。具体而言,我们在Adam的算法基础上加入了如下的正则项:

 

其中,λ(t)为随训练步骤t而变化的衰减函数,本实验采用的是指数型衰减函数,读者可根据自身实验做相应调整。

 

Dropout正则化。为了提高模型的泛化性,训练过程中会加入dropout技术。这就造成了单个样本在不同时刻输入到模型后,得到不一致的输出结果。因此,我们在训练过程中,将单个样本连续两次输入到模型中,并添加了如下的正则化损失函数:

 

本次言犀NR-Rino模型刷新了 DROP 榜单,未来将进一步推动离散推理型阅读理解的发展,包括涉及背景知识的数字推理、复杂数字推理的问题。 这些沉淀的AI能力也将广泛应用于京东零售、京东物流、京东健康,以及外部金融、政务、泛互的行业,涉及数字分析、 金融报告分析、体育数据分析 ,智能交互RPA等环节,进一步提升智能人机交互的能力,推动实体经济发展。

 

-End-

 

参考文献

 

[1] Dua D, Wang Y, Dasigi P, et al.DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning OverParagraphs. NAACL-2019.

 

[ 2] Vaswani A, ShazeerN, Parmar N, et al. Attention is All you Need. NIPS-2017.

 

[3] Devlin J, Chang M-W, Lee K, et al.BERT: Pre-training of Deep Bidirectional Transformers for LanguageUnderstanding. NAACL-2019.

 

[4] Rajpurkar P, Zhang J, Lopyrev K,et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text. EMNLP-2016.

 

[5] Krishnamurthy J, Dasigi P, GardnerM. Neural Semantic Parsing with Type Constraints for Semi-Structured Tables.EMNLP-2017.

 

[6] Chen X, Liang C, Yu A W, et al.Neural Symbolic Reader: Scalable Integration of Distributed and SymbolicRepresentations for Reading Comprehension. ICLR-2020.

 

[7] Ran Q, Lin Y, Li P, et al. NumNet:Machine Reading Comprehension withNumerical Reasoning. EMNLP-2019.

 

[8] Chen K, Xu W, Cheng X, et al.Question Directed Graph Attention Network for Numerical Reasoning over Text.EMNLP-2020.

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。