Press "Enter" to skip to content

当知识图谱遇上文本摘要:保留抽象式文本摘要的事实性知识

论文标题:

 

Boosting Factual Correctness of Abstractive Summarization with Knowledge Graph

 

论文作者:

 

Chenguang Zhu, William Hinthorn, Ruochen Xu, Qingkai Zeng, Michael Zeng, Xuedong Huang, Meng Jiang

 

论文链接:

 

https://arxiv.org/abs/2003.08612

 

抽象式文本摘要具有更加灵活的特点,然而,它也容易导致“文本事实偏离”——错误地提取了文章给出的基本事实。此时,尽管生成的文本很通顺,但是它包含了错误的事实,这就改变了原文的信息。

本文提出把知识图谱融入到文本摘要的过程中,通过显式地提取事实性知识,生成的摘要可以更好地利用这些知识,从而最大限度地保留原义。

抽象式文本摘要与事实性知识丢失

 

文本摘要是NLP中非常重要的一项任务,即给定一篇长文章,模型生成一小段文本作为对该文章的摘要。

 

总的来讲,文本摘要分为抽取式与抽象式。前者是直接从文章中选取片段作为摘要,后者是从头开始生成一段文本作为摘要。

 

显然,抽取式文本摘要的好处是它能保留文章的原始信息,但缺点是它只能从原文章中选取,相对不那幺灵活。

 

而抽象式摘要尽管能更加灵活地生成文本,但是它经常包含很多错误的“事实性知识”——错误地生成了原文章本来的信息。

 

比如,原文章包含了一个重要事实(观点):“诺兰于2010年导演了《盗梦空间》,由莱昂纳多主演。”

 

但是,抽象式摘要模型可能就会生成:“莱昂纳多导演了《盗梦空间》。”这就是事实性知识的错误。

 

针对这种现象,本文在抽象式摘要中融入了知识图谱:

 

首先使用知识图谱动态地提取文章中的事实性知识;

 

把提取到的事实性知识融合到文本生成的过程中;

 

使得生成的文本不再包含事实性知识错误。

 

除此之外,本文还训练了一个事实性知识评估模型,用于评估生成的摘要匹配原文事实性知识的程度。

 

通过在基准数据集CNN/DailyMail和XSum的实验与分析,本文证明了该方法(FASUM)可以取得显着更好的事实性知识度,同时也具有抽象式文本摘要的灵活的特点。

 

将知识图谱融入到文本摘要过程

 

知识图谱构建

 

知识融合

 

摘要生成

 

事实性知识正确度评估

 

 

实验

 

 

 

为了检验抽象式摘要生成文本的“抽象程度”——生成新的n-gram的比例,如下图所示。可以看到,FASUM在所有方法中,可以生成更加新颖的摘要,同时保留了事实性知识。

 

 

 

下表是计算结果。可以看到,FASUM在事实性知识匹配程度上显着优于基线模型,这说明在文本摘要中加入知识图谱的确可以保留事实性知识。

 

 

我们再来看看人工评测。如下表所示,在事实性得分上,FASUM毫无疑问取得最好结果;在信息度上,UNILM得分最高,其次是FASUM。

 

 

小结

 

在文本摘要中,提取事实性知识,即原文信息,是非常重要的一个环节。尽可能保留原文可以避免原义的曲解,对于鉴别当前互联网上随处可见的假新闻有重要的意义。

 

将知识图谱融入到文本摘要任务中是NLP发展的一大趋势,有助于加速NLP大规模落地应用的进程。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注