Press "Enter" to skip to content

用不匹配的图文对也能进行多模态预训练?百度提出统一模态的预训练框架:UNIMO(ACL2021)

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本文分享 ACL 2021 论文 『UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning』 ,由 百度提出统一模态的预训练框架《UNIMO》、用不匹配的图文对也能进行多模态预训练?

 

详细信息如下:

 

 

论文链接:https://arxiv.org/abs/2012.15409

 

项目链接:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/examples/text_generation/unimo-text

 

导言:

 

现有的预训练方法要幺侧重于单模态任务,要幺侧重于多模态任务,不能有效地相互适应。它们只能利用单模态数据(即,文本或图像)或有限的多模态数据(即,图像-文本对)。

 

在这项工作中,作者提出了一种 统一模态预训练的结构,即UNIMO,它可以有效地适应单模态和多模态的理解和生成任务 。利用大规模的自由文本语料库和图像集合来提高视觉和文本理解的能力,并利用跨模态对比学习来将文本和视觉信息对齐到统一的语义空间。在丰富的非成对单模态数据的帮助下,通过允许文本知识和视觉知识在统一的语义空间中相互增强,UNIMO能够学习更多的泛化表示。

 

实验结果表明,UNIMO极大地提高了多个单模态和多模态下游任务的性能。

 

       01       

 

Motivation

 

大规模预训练由于其强大的泛化能力和对大规模数据的高效使用,在计算机视觉(CV)和自然语言处理(NLP)领域都受到了广泛关注。近年来,CV领域的一系列基于ImageNet预训练模型极大的推动了各种计算机视觉任务的发展;NLP的预训练模型的涌现,如BERT、RoBERTa、XLNet和UniLM,极大地提高了语言理解和生成能力。

 

然而,上述研究主要集中于单模态学习,只能有效地应用于单模态(即仅文本或图像)场景。为了适应多模态场景,一系列多模态预训练方法也出现了,如ViLBERT、VisualBERT和UNITER,通过在图像-文本对语料库上进行预训练,大大提高了处理多模态信息的能力。然而,这些模型只能利用有限的图像-文本对语料库,不能有效地适应单模态的场景。

 

 

一个更智能的人工智能系统应该能够有效地处理不同形式的信息。网络上有大量不同形式的数据,主要是文本和视觉信息,这两者信息应该可以相互增强,来获得更加完整和丰富的文本和视觉知识。

 

如上图所示,仅使用图像中的视觉信息很难正确回答问题。然而,如果将视觉信息与描述棒球比赛背景的文本信息联系起来,就很容易确定正确答案。此外,视觉信息也可以使理解文本描述的场景更容易。 神经科学的研究表明,人脑中负责视觉的部分可以学习处理其他类型的信息,包括触觉和声音 。

 

受此启发,作者设计了一个统一模态架构UNIMO,旨在用一个模型处理多场景和多模态数据输入,包括文本、视觉、视觉-语言数据,如下图所示。

 

 

统一不同模态的最大挑战是将它们对齐并统一到相同的语义空间中。现有的跨模态预训练方法试图通过简单的 图像-文本匹配 和 掩蔽语言建模 来学习仅基于有限图像-文本对的跨模态表示。他们只能学习图像-文本对的特定表示,因此无法推广到单模态场景。

 

当应用于语言任务时,这些模型的表现会显着下降。在这项工作中,UNIMO同时学习视觉表征和文本表征,并通过基于大规模 图像集合 、 文本语料库 和 图像-文本对语料库 的跨模态对比学习(CMCL),将它们统一到同一语义空间。

 

UNIMO有效地利用大规模的文本语料库和图像集合来学习一般的文本和视觉表示。CMCL将视觉表示和文本表示对齐,并基于图像-文本对将它们统一到相同的语义空间中。为了促进视觉和语言之间不同层次的语义对齐,作者提出利用 文本重写 技术来提高跨模态信息的多样性。

 

此外,为了让单一模态数据中包含更多的背景信息, 文本和图像检索 也被用各种相关的文本和图像来增强每个图像-文本对。正对、负对、相关的图像-文本由CMCL共同学习。通过这种方式,本文的模型可以有效地将不同层次的视觉和文本表示统一到同一语义空间中,并结合更多的单模态知识来相互增强。

 

       02       

 

方法

 

 

人类通过许多方式感知世界,如声音、视觉和语言。尽管单独的模态可能是不完整的或嘈杂的,但重要的信息仍然是可感知的,因为它们往往彼此共享或增强。基于这一动机,作者提 出了一种统一模态预训练方法UNIMO,用于学习在语义级别捕获模态不变信息的表示 。与以前的方法不同,UNIMO从不同的数据模态学习,包括图像、文本和图像-文本对,从而实现文本和视觉输入的更健壮和更通用的表示。

 

UNIMO采用多层自注意Transformer学习文本和视觉数据的统一语义表示。对于文本输入W,首先通过Byte-Pair Encoding (BPE),将其拆分为一系列子词

 

, 然后利用自注意机制学习上下文token表示

 

。特殊token [CLS]和[SEP]分别表示文本序列的开始和结束。对于输入图像V,首先将其转换为区域特征序列

 

(代表整个图像的特征表示),然后利用自注意机制学习上下文区域

 

。对于图像-文本对(V,W),视觉特征和文本token作为一个序列连接在一起,得到

 

。然后将序列输入到多层Transformer网络中,学习文本token和图像区域的跨模态上下文表示。然后,分别提取表示和作为图像V和文本W的语义表示。

 

基于大量的图像集、文本语料库和图文对,UNIMO通过掩蔽预测的方式学习泛化的视觉和文本表示,并通过CMCL将它们统一到相同的语义空间中。

 

联合进行的 图像集合上的视觉学习 、 文本语料库上的语言学习 和 图像-文本对上的跨模态学习 ,不仅提高了视觉-语言理解和生成的能力,而且使文本知识和视觉知识在统一的语义空间中相互增强。

 

2.1. Cross-Modal Contrastive Learning

 

 

对于上图所示的示例,模型不仅需要将整个图像中显示的场景连接到描述棒球比赛的文章,还需要将图像中的两个人及其位置关系分别与文本中的“baseball player”、“umpire”和“behind”对齐。

 

现有的跨模态预训练方法都通过基于有限的图像-文本对语料库的简单图像-文本匹配来对齐视觉和文本表示。他们从同一Batch中为每个图像-文本对随机采样负图像或文本样本对,并利用分类器确定图像和文本是否匹配。由于随机抽样的负图像或文本样本对通常与原始文本或图像非常不同,因此他们只能学习文本和视觉表示之间非常粗略的对齐。

 

在这项工作中,作者提出了一种新的CMCL方法,将不同层次的文本和视觉表示对齐并统一到同一语义空间中。其主要思想是 让成对图像和文本的表示在表示空间中靠近,而非成对文本的表示则远离 。图像V和文本W的表示用于计算它们之间的相似性,以测量它们之间的距离。

 

为了促进视觉和语言在不同层面上的语义对齐,作者设计了几种 文本重写技术  ,在单词、短语或句子层面重写图像的原始标题。通过这种方式, 对于每个图像-文本对就可以创建大量的正例和负例。

 

此外,为了用单模态信息增强跨模态学习,文本和图像检索技术被用于获得每个图像-文本对的各种相关文本和图像。与正图文对和负图文对不同,检索到的图像和文本被单独编码,因为它们携带弱相关性。基于这些正样本和负样本,计算学习视觉和语言的语义对齐对比损失:

 

 

其中τ表示温度参数。对于单模态图像和文本,分别使用原始文本W和图像V来计算跨模态相关性。( 这里的负样本是手动生成的,因此跟原来的样本具有高度的相似性,所以可以看做是hard negative样本,因此,在对比学习里面效率更高。  )

 

Text Rewriting

 

为了增强图像和文本之间的多层次语义对齐,作者在不同的层面上重写了图像的标题,包括 句子层次 、 短语层次 和 单词层次 。

 

对于 句子级重写 ,作者利用回译(back-translation)技术为每个图像文本对获得多个正样本。具体来说,图像的每个标题都被翻译成另一种语言,然后再翻译回原始语言。这样,可以为一幅图像获得多个类似的标题。此外,对于每个图像-文本对,基于TF-IDF相似性检索其他图像的最相似字幕。检索结果会与原始标题非常相似,但不能准确描述相应的图像,因此可以将其用作hard negative样本,以增强图像和文本之间的句子级对齐。

 

对于 短语级和单词级重写 ,作者首先将图像标题解析为场景图,然后用对应词汇表中的不同对象、属性或关系随机替换场景图的对象、属性或关系节点。文本重写可以生成大量的hard negative样本,而不是像以前的方法那样随机采样负样本。通过这种方式,可以帮助模型从图像和文本之间进行不同层次的语义对齐。

 

Image/Text Retrieval

 

为了在跨模态学习过程中加入更多的单模态信息,每个图像-文本对还根据从单模态数据中检索到的各种相关图像和文本进行增强。具体而言,对于一幅图像,图像集合中的其他图像将按其视觉相似性排序。并提取与原始图像具有高度重叠对象的图像,以提供相关的背景视觉信息。

 

类似地,基于语义相似度提取与原始字幕语义相关的句子以提供背景语言信息。检索到的图像和文本由单独的Transformer编码器进行编码,然后提取它们的表示,以计算跨模态对比损失。这些检索到的单模态信息为更好的跨模态学习提供了丰富的背景信息。

 

2.2. Visual Learning

 

类似于BERT中的掩蔽语言建模(MLM),作者以15%的概率对图像区域进行采样,并对其视觉特征进行掩蔽。掩蔽区域的视觉特征用零替换。由于图像中的区域通常是高度重叠的,为了避免信息泄露,作者选择对所有相互交集比例较高的区域进行掩蔽。对于图像V,在给定剩余区域的情况下,对模型进行训练以重建mask区域:

 

 

类似地,对于图像-文本对,模型经过训练,以在给定文本W和剩余区域的情况下重建mask区域:

 

 

由于视觉特征是高维和连续的,作者利用 特征回归 和 区域分类 目标来学习更好的视觉表征。特征回归学习将上下文化的视觉表征回归到其视觉特征,表示如下:

 

 

区域分类学习根据其上下文视觉表示识别每个区域的对象语义类。FC层用于计算K个对象类的分数,进一步通过softmax函数获得归一化分布。最终目标是使预测分布和Faster R-CNN的目标检测输出之间的交叉熵(CE)损失最小化:

 

2.3. Language Learning

 

为了学习语言理解和生成任务的通用语言表示,本文的模型被训练为具有两种语言建模任务的统一编码器-解码器模型:双向预测 和序列到序列(Seq2Seq)生成 。为了改进语言学习过程,作者首先通过句法分析从文本中检测语义完整的短语,例如名称实体,然后使用以下掩蔽策略将它们作为一个整体处理。与以前的工作不同,对于 双向预测 和 Seq2Seq生成 ,作者采样了一系列完整的单词或短语,而不是子单词token。

 

Bidirectional prediction

 

给定一系列token,模型迭代地对文本范围进行采样,直到总共选择了15%的token。所选范围内的所有token以80%、10%和10%的概率分别替换为[MASK] token、随机token和原始token。目标函数是基于其周围上下文预测这些被mask的token:

 

 

Seq2Seq generation

 

对于Seq2Seq生成任务,迭代地从token序列中采样片段。对于每次迭代,首先从均匀分布中取样片段长度,然后对指定长度的片段进行取样。每个选定的片段进一步附加两个特殊token和,得到。然后,从文本中删除所有选定片段,并将其concat为目标序列T,而将其余部分concat为源序列S。对该模型进行训练,以在源序列上自动回归地生成目标序列:

 

 

其中

 

 

       03       

 

实验

 

3.1. Multi-Modal tasks

 

 

上表展示了本文方法和其他预训练方法在多模态任务上的性能对比,可以看出,本文方法在大多数多模态任务上具有性能优势。

 

3.2. Single-Modal tasks

 

 

以往的多模态预训练模型通常不能有效地适应单模态场景。上表展示了本文方法在语言理解和生成任务上和其他单模态预训练模型相比的结果。

 

3.3. Mutual Enhancement of Text and Vision

 

Text Enhance Vision

 

 

上表展示了没有文本数据训练和正常训练的UNIMO模型结果的对比,可以看出,文本数据对于视觉信息的理解还是有促进作用的。

 

Vision Enhance Text

 

 

上表展示了没有图片和图文对数据训练和正常训练的UNIMO模型结果的对比,可以看出,视觉数据对于语言信息的理解还是有促进作用的。

 

       04       

 

总结

 

在这项工作中,作者提出了UNIMO,这是一个统一模态的预训练架构,用于利用大规模的非配对文本语料库和图像集合进行跨模式学习。UNIMO为文本 知识和视觉知识在单一语义空间中相互增强提供了一种有效的方法,并且UNIMO成功地适应了单模态和多模态的理解和生成任务。此外,UNIMO在多模态和单模态下游任务上的表现都优于以前的方法。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。