Press "Enter" to skip to content

第三届大型VOS挑战赛中排名第一!AOT将实例与Transformer相关联来同时统一匹配和解码多个实例

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

关注公众号,发现CV技术之美

 

 

 

本文分享一篇  NeurIPS 2021  的论文 『Associating Objects with Transformers for Video Object Segmentation』 ,由 浙江大学 、百度、 北京交通大学等联合提出一种将实例与Transformer(AOT)相关联的方法来同时统一匹配和解码多个实例。AOT模型在第三届大型VOS挑战赛中排名第一。

 

详细信息如下:

 

 

论文链接:https://arxiv.org/abs/2106.02638

 

      01        

 

前言

 

本文探讨了如何在具有挑战性的多目标场景下实现更好、更高效的embedding learning,以解决半监督视频实例分割问题(Video Object Segmentation,VOS)。目前普通的方法都是对视频帧中每个单个实例进行解码,因此必须在多实例场景下分别匹配和分割每个实例,消耗多次计算资源。

 

为了解决这个问题,作者提出了一种将实例与Transformer(AOT)相关联的方法来同时统一匹配和解码多个实例。详细地说,AOT采用识别机制将多个实例关联到同一个高维特征空间中,因此,对于同时处理多个对象的匹配和分割解码,AOT就像处理单个对象一样高效。此外,为了充分模拟多实例的关联,AOT设计了长短期transformer来构建分层匹配和传播。

 

AOT模型在第三届大型VOS挑战赛中排名第一。

 

      02        

 

方法

 

目前最先进的视频实例分割算法在进行分割任务时,都是将视频帧中的每个实例遍历,再将结果汇总。如下图(a)所示,视频当前帧信息(current)与先验信息(reference)将被送入VOS 网络,在此期间,每个实例将被独立分别处理,最后再将每个实例的预测结果汇总,在进行多目标识别时,计算复杂度将随着实例数量增多而线性增多。在AOT端到端网络架构中,当前帧信息与先验信息将直接输入网络,并且直接输出最终的预测结果。

 

 

作者的AOT模型主要包含两个机制,分别是:多目标关联识别机制以及长短期transfroemr,以实现多目标的匹配与传播。

 

 

2.1Identification Mechanism for Multi-object Association :多目标关联的识别机制

 

为了实现多目标同时分割,就必须在输入端实现模型对于每个实例的识别。作者提出多目标关联的识别机制,其中,通过Identity Bank提前存储M个C维的身份向量以备选用,当输入的Mask信息中包含N个实例时(M>N),AOT通过一种随机筛选匹配机制,为N个实例随机匹配Identity Bank中的身份信息。以此来实现对每个输入Mask进行实例区分。

 

为了实现对身份的随机匹配,作者设计了筛选矩阵P,P ∈ {0, 1} N×M ,并且PPT是一个 M × M 的单位阵。

 

其中,Y ∈ {0, 1} THW×N ,为输入的Mask信息,N为实例数量。P ∈ {0, 1} N×M,为随机筛选矩阵。D ∈ RM×C为随机初始化的同一个特征空间下的身份信息,其中M为身份个数,C为每个身份的特征维度。通过上述公式,即可完成输入Mask的转变,E ∈ R THW×C ,即将原先的N个Mask信息都映射到C维特征空间中。

 

通过将Mask中的实例信息映射到同一特征空间中,并通过不同的特征向量进行区分,即可完成对不同实例的识别。

 

2.2 Long Short-Term Transformer for Hierarchical Matching and Propagation :长短期Transformer

 

普通的VOS方法通常只采用一层attention网络来对单个实例进行建模,作者提出了多层的长短期Transformer(LSTT)同时对多个实例进行建模。

 

Long-Term Attention (长期Attention网络) :用于将过去内存帧(包含参考帧和存储的预测帧)的目标信息映射到当前帧。由于当前帧和过去帧之间的时间间隔是可变的,因此很难保证时间平滑度。长期关注采用 non-local attention来实现信息的映射。

 

其中,Xtl表示第t帧第l个Block的输入frames,Xml表示记忆帧信息,Ym表示记忆帧的Mask信息。

 

Short-Term Attention(短期Attention网络) :用于聚合每个当前帧位置的时空邻域中的信息。从直观感觉上,多个连续视频帧的图像变化始终是平滑和连续的,所以通过在当前帧的某个pixel上进行时(不同frames)空(不同的location)信息聚合来捕捉连续帧的领域信息。

 

其中p表示当前像素的位置,N(p) ∈ λ × λ 表示当前像素的领域像素。

 

      03        

 

实验

 

为验证AOT的有效性,作者使用了使用轻量级encoder:MobileNet-V2 以及decoder:FPN。空间邻域大小 λ 设置为 15,并且身份向量 数量M 设置为 10。

 

训练策略

 

训练分为两个阶段,先在静态图像数据集生成的视频序列中进行预训练,再在YouTube-VOS与DAVIS公开视频数据集上进行训练。

 

实验效果

 

 

在YouTube-VOS与DAVIS测试集与验证集上均取得SOTA性能。并且大幅提升了推理阶段的FPS。

 

 

由上分割结果可以看出,AOT在对多个相似实例进行分割时效果更好。

 

消融

 

分别对 M(ID Bank中的身份个数)、λ(短期attention领域像素尺寸)、n(短期attention时间维度帧数)、L(block number)、Positional embedding进行了消融对比实验。

 

 

      04        

 

结论

 

提出了一种新颖高效的视频实例分割方法,通过将实例与Transformer相关联,并在三个流行的 benchmarks测试上实现了卓越的性能。提出一种简单有效的识别机制,在多目标场景下对所有实例进行统一关联、匹配和解码。AOT首次通过使用识别机制证明了在VOS中处理多个对象可以有效地处理单个对象。此外,还设计了一个长短期tramsformer,用于构建VOS的实例匹配和传播。通过调整LSTT的层数,可以在精度与实时速度间进行平衡。

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。