Press "Enter" to skip to content

基于深度学习的image/video caption的研究

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本文作者:北京理工大学博士生。

 

Image caption和video caption可以看做是一种机器翻译的形式,它将图像和视频数据看做是一种语言,通过机器翻译生成另一种语言的文本信息。Image caption即图像信息到文本信息的机器翻译,从图像中提取出特征,再将其特征作为输入以生成文字语义。Video caption是image caption的升级版,它为每个视频及其对应的时序信息生成视频的文本描述。该过程不仅要考虑视频的时序信息,还要合理地整合每个视频的视觉内容所产生的文本信息,因此难度要远远高于image caption。以下是对基于深度学习的image caption和video caption现有方法的简要介绍,并简单介绍了其中广泛使用的方法,进一步分析和总结。

 

Image caption主要分为四种基于深度学习的研究方法,分别是Encoder-Decoder、引入注意力机制、GAN和强化学习等方法。目前基于深度学习的image caption领域的方法主要是Encoder-Decoder方法。文献 [1]利用Faster-RCNN检测得到的目标特征、目标属性和目标之间的关系以生成场景图,并使用字典学习最终的特征表示以生成更丰富的image caption。Show, Attend and Tell [2]在Encoder-Decoder的基础上,引入了attention机制,该方法考虑了目标之间的关系,是一个极具代表性的开山之作。因此,本文对此方法进行了详细介绍和分析。如图1所示。

图1 Neural Image Caption Generation with Visual Attention.

在图1中可以看出,该结构实质上是Encoder-Decoder结构。首先在encoder 部分使用卷积神经网络提取图像特征,随后Decoder部分引入attention机制以加强有效特征的提取,并赋予更大的权重,最终通过RNN输出最终的图像描述信息。

 

如图2所示,在encoder阶段中,通过CNN对输入图像$I$提取$L$个特征向量,每个向量表示图像的每个区域,即$a_1,a_2,\cdots,a_L$。在Decoder阶段中,由注意力机制与对应区域的特征一起可得上下文特征$z_1,z_2,\cdots,z_c$等$C$维向量,将$C$维向量输入到RNN中,组合单词的emdedding进行训练。

 

这里attention机制有两种机制,分别是hard attention和soft attention: 1. Hard attention:此attention机制只关注最相关的一个位置,其余全部为0,因此它是一种One-hot形式。该机制使模型只能关注当前时刻的某一块区域,并没有关注整张图像的所有区域。 2. Soft attention:soft attention机制关注所有区域的位置,而且每个区域权重不同,并且将每个区域权重与对应区域的特征进行加权和,输入到RNN中。

 

在整体结果和训练上,与hard attention机制相比,soft attention机制训练简单,而且更能充分表示图像与文本之间的对应关系。

图2 Encoder-Decoder with attention.

该算法虽然取得了显着的效果,但是也存在一些问题,诸如: 1. 图像上的每个空间区域使用统一的权重,导致模型无法针对性的生成文本信息,效果并不大。因此应当重点关注目标所在的区域和显着性区域,对这些区域赋予不同的权重注意力分布,使模型加强对有效区域的学习。 2. 该网络把每一个单词都对应于每个图像区域,但是却忽略了不需要相应图像区域的某些单词,例如冠词和动词。因此,可以先将图像中的目标区域先检测出来,并计算该目标与Word的关联程度,并通过结合attention机制预测出目标与目标之间的关系,便可自适应的预测出冠词、动词和介词等;或者可以降低不需要对应图像区域的单词所对应的权重。

 

Video caption是视频内容生成的文字描述。与image caption相比,video caption使用的不适用于平滑变化和静态的图像,它包含具有时序信息、声音信息和空间信息的视频数据,场景变化大,比静态图像包含更多的信息。因此,对于生成文字描述video caption需要提取更多的特征,难度要远于image caption。Video caption主要的研究方法同image caption,也基本分为四种。目前大多数基于encoder-decoder结构,文献 [3]引入与候选词汇有关联的所有视频信息,以辅助短视频的文本信息生成,并融合了其他视频的特征使模型能够全面学习特征。Sequence to Sequence – Video to Text [4]是相对经典且广泛使用的算法,该算法引入了光流图像特征,使模型可以更好地学习视频的时序信息特征,本文对此方法进行了简单介绍和分析。

图3 Sequence to Sequence – Video to Text.

如图3所示,该网络结构具有两层LSTM,第一层LSTM对视频图像序列的特征进行编码,第二层LSTM对特征进行解码以生成文字描述。送入LSTM 的输入特征有两种,分别是:RGB图像和光学流图像,在RGB图像中,通过卷积神经网络提取固定大小的特征;在光学流图像中,提取出光流信息并按照传统方法生成光流图。整体网络将两种视觉输入的预测结果进行加权求和,逐步完成单词的预测,最终生成视频的文本信息。

 

参考文献

 

[1] Yang, X. , Tang, K. , Zhang, H. , & Cai, J. . (2018). Auto-encoding scene graphs for image captioning.

 

[2] Xu, Kelvin, et al. “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.” Computer Science (2015):2048-2057.

 

[3] Pei W , Zhang J , Wang X , et al. Memory-Attended Recurrent Network for Video Captioning[J]. 2019.

 

[4] Venugopalan, Subhashini, et al. “Sequence to sequence-video to text.” Proceedings of the IEEE international conference on computer vision. 2015.

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注