Press "Enter" to skip to content

基于多模态学习的视觉实体链接

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

原文作者:Qiushuo Zheng, Hao Wen, Meng Wang, Guilin Qi

 

原文标题:Visual Entity Linking via Multi-modal Learning

 

原文链接:https://direct.mit.edu/dint/article/doi/10.1162/dint_a_00114/108470/Visual-Entity-Linking-via-Multi-modal-Learning

 

原文来源:2021 Data Intelligence

 

笔记作者:[email protected]

 

笔记小编:[email protected]

 

Introduction

 

现有的视觉场景理解方法主要侧重于粗粒度识别视觉对象以及他们之间的关系,而忽略了细粒度场景理解。事实上,例如新闻阅读和网上购物等场景下,都存在细粒度识别出图片中的元素为实体的需求。为此,这篇文章提出了一项新的研究任务:用于细粒度场景理解的可视化实体链接。首先从不同的模态中提取候选实体特征,然后设计了一个基于深度模态注意力神经网络的学习排名方法,将所有的特征聚合起来,将视觉对象映射到知识图谱中的实体。实验表明,与baseline对比,这一方法的准确率从66%提高到了83%。

 

Method

论文方法的整体框架图如图所示,由特征提取模块和视觉实体链接两个模块组成。

 

图像数据的处理是首先生成一个粗粒度的场景图,再通过VGG-16网络来提取图像中物体的视觉特征。图像的描述文本一方面会通过GRU网络,提取物体的文本特征,另一方面会通过基于BERT的方法进行命名实体识别,并通过实体名在通用知识库中搜索出候选的实体。分别获得视觉特征、文本特征和知识图谱特征后,利用提出的基于深度模态注意力神经网络的学习排名方法(deep modal-attention neural network-based learning-to-rank method),汇总所有的特征并将视觉对象映射到知识图谱中的实体。

 

Experiments

 

Datasets

 

目前计算机视觉数据集基本上没有命名实体的数据,因此论文作者建立了VELD(Visual Entity Linking Dataset)数据集,由39k个左右的新闻图片和文字说明对组成,并且全部经过人工标注和筛选,确保图片说明文字中含有相关的命名实体。

VELD数据集与MSCOCO和BreakingNews的比较

Tasks

 

给定一个图像的边界框和相应的说明文字,目标是将图像边界框与DBpedia知识库中相应的实体进行链接。

 

Results

 

作者提出的研究任务相对较新,用于比较的模型比较有限。下表是作者选择的对于实体链接和视觉对象识别目前最常见的几种方法进行的对比实验结果,T表示文本模态、V表示视觉模态、KG表示知识图谱模态。

前两个模型使用了视觉模态和知识图谱模态信息,结果表明这类静态离线训练的深度神经网络不能很好地完成视觉实体链接的任务,接下来的四个文本模态+知识图谱模态的模型得到的结果也与作者的模型有较大差距。即使是与类似的多模态学习模型DZMNED对比,作者的模型依然有非常显着的优势。原因在于作者的模型是对于 三种模态特征的融合 ,而不仅是简单的基于模态的连接。

上图是模态融合的一个例子,在不同情况下不同的模态有着不同的权重,颜色越深则权重越大。以第一行为例,首先生成了 Jobs , Apple , iPhone 的候选实体列表。在对 Jobs 进行链接的过程中,可以看到视觉模态的权重要更大,因为从文本上看 Jobs 这一名字可能对应了很多个人;而对于 AppleiPhone 两个实体来说,视觉模态的权重则比文本低得多,因为仅依靠文本就可以很容易地找到与上下文语义相对应的知识图谱实体。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注