Press "Enter" to skip to content

论文浅尝 – EMNLP2020 | ConceptBert:视觉问题回答的概念感知表示

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

笔记整理 | 陈卓,浙江大学计算机科学与技术系,博士研究生

 

研究方向 | 知识图谱/图神经网络/多模态

 

 

论文链接: https://www.aclweb.org/anthology/2020.findings-emnlp.44.pdf

 

: https://github.com/ZiaMaryam/ConceptBERT

 

发表会议:EMNLP 2020

 

任务核心ideas

 

 

模型概览

 

 

流程如下:

 

得到对应模态的嵌入表示

 

通过两个并行模态融合模块

 

视觉-语言(输出2个向量)

 

知识-语言(输出1个向量)

 

聚合三种向量

 

带有语言信息的视觉向量

 

带有视觉信息的语言向量

 

带有外部知识的语言向量

 

分类器进行答案分类

 

背景知识

 

 

借鉴AAAI2020的一篇文章( Commonsense knowledge base completion with structural and semantic context )中所提到的ConceptNet 作为I2020 常识概念图中的实体表示

 

 

借鉴NIPS2019中一篇文章中的多模态交叉attention方法,交叉视觉和语言两条stream分别使用了自己的query和来自另一边的key和value向量,进行信息融合

 

模型方法

 

输入模块:

 

 

编码模块:

 

 

包括:

 

1:图片与bert的联合编码

 

2:bert与Kgembedding的联合编码

 

3:3个编码方式的聚合

 

实验

 

 

作者在OK-VQA数据集上达到了sota,但是在VQA标准数据集VQA2.0上并没有达到。主要原因是因为该方法侧重于常识与背景知识,在trick上不如当前SOTA的VQA模型(效果接近76%)。

 

同时,该论文避开了FVQA数据集,猜测原因是在该数据集上表现不佳(该数据上大部分方法都是基于pipeline,这种end2end的方法不好去对标)

 

总结与灵感

 

常识知识库某种程度上可增强许多VQA任务,哪怕不是显式地需要外部知识

 

多模态任务中以图的形式引入外部知识依然有很大的潜力可以挖掘

 

预训练fine-tune +(交叉)注意力机制 + 外部知识 + KG图结构 – – > 信息最大化

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注