Press "Enter" to skip to content

多目标追踪MOTR范——旷视提出首个完全基于端到端Transformer的多目标追踪模型,简单思想重构高效技…

多目标追踪是自动驾驶、安防和视频行为分析领域的重要研究领域, 其主要挑战在于为追踪目标建立时域模型。 本文的MOTR架构提出了一种称为 Track Query 的全新概念,每个 Track Query将为一个目 标的进行完整的追踪建模,在帧与帧之间传输和更新实现无缝地检测和追踪。

 

:sparkles: 最后一天!IC RA线上交流活动报名,点击 这里 查看详情,抓紧机会,末班车等你来!

 

 

论文链接:

 

https://arxiv.org/pdf/2105.03247.pdf

 

项目网站:

 

https://github.com/megvii-model/MOTR

 

一、引言

 

多目标追踪是自动驾驶、安防和视频行为分析领域的重要研究领域,其主要挑战在于为追踪目标建立时域模型。现有基于检测的追踪方法普遍基于相似性等启发式的方法来实现追踪,但这些方法过于简单,并无法有效为目标的复杂变化建模,同时也无法直接从数据中学习有效的时变特征。

 

为了解决这一问题,研究人员在Transformer成功应用于目标检测领域的启发下提出了 一种完全端到端的多目标追踪框架,可以从数据中学习为目标的长程时变特性建模。 与目标检测的DETR不同,本文的MOTR架构提出了一种称为 Track Query 的全新概念,每个Track Query将为一个目标的进行完整的追踪建模,在帧与帧之间传输和更新实现无缝地检测和追踪。此外还提出了 时域聚合网络融合多帧训练并为长程时域依赖关系建模 。这一简单的概念让多目标追踪彻底舍弃了传统的算法,真正成为了严格意义上的端到端模型。

 

二、多目标追踪与Transformer结缘

 

多目标追踪(Multiple-object tracking, MOT)问题与目标检测相比不仅需要检测出目标的位置和类别,同时还需要预测出目标在视频序列中的运动轨迹。 其主要挑战在于预测目标在视频中的每一帧中存在较大的变化,有可能被遮挡、强光、丢帧等影响,追踪器需要处理长程和低速率追踪问题,追踪场景中的复杂性与多样性问题大大提高了MOT的难度。

 

现有方案大多基于检测到追踪的范式,通过将追踪问题分解为目标定位和时域连续问题来处理。首先使用目标检测方法逐帧检测图像中的目标,而后使用类似IoU的方式进行空间相似度计算、或使用重识别Re-ID领域常用的外观相似度的方式,实现时域连接。IoU方式使用重叠区域比例的阈值来进行判断,而外观相似度则使用相邻帧中目标的特征相似度来测量。

 

然而这些方法大多基于启发式的简单手段,难以为空间位置和外观形状在不断发生复杂变化的目标进行建模。此外这些方法缺乏从数据中为进行时变建模的能力,没有充分利用深度学习中端到端的建模范式。虽然在大多数场景稳定的情况下这些方法表现良好,但在不规律场景下却极易追踪失败,这成为了多目标追踪问题所面临的最大挑战之一。除了遮挡外,强光、暗光、变形等情况对于Re-ID范式的追踪方法都有着致命的影响。多目标追踪领域需要从新的视角探索弥补这些缺陷的新方法,实现无需辅助过程的真正端到端追踪。

 

最近基于自注意力机制的Transformer在目标检测领域构建了大获成功的DETR模型,其中提出了 “目标查询(Object Query)” 的概念,显式地对目标表达进行了解耦,并使得Transformer模型得以方便地应用于目标检测问题上。 在DETR的启发下,研究人员将“目标查询”的概念拓展为了“追踪查询(Track Query)”, 每一个追踪查询负责一个视频中目标完整生命周期的追踪过程。

 

 

图中展示了三种多目标追踪的方式,C表示分类,B表示bbox预测,R表示Re-ID,Q表示追踪query。基于IoU方式的追踪器需要通过计算相邻帧间的IoU重叠面积来实现追踪;Re-ID的方式则需要预测通过预测检测目标的特征相似性来实现追踪;而MOTR方式在检测和分类分之外,还增加了额外的追踪查询分支,每个追踪查询负责追踪一个目标,追踪查询递归地馈入解码器中预测当前帧的结果。

 

上图中展示了本文提出的基于track query的多目标追踪架构示意图。在与分类C和回归框B分支并行的同时MOTR还为每一帧预测出了追踪查询,并作为输入送入到解码器中预测出当前帧的追踪结果,并更新下一帧的追踪查询编码。更新后的追踪查询编码又再一次输入到解码器中负责下一帧图像的追踪检测。 这种在完整视频序列中逐帧更新、重复传递的过程称为连续查询传递。 由于每个追踪查询一直追踪相同的目标,所以连续查询传递可以消除对于多目标追踪过程中时域连续和手工操作的需要。

 

为了对长程时域相关性进行建模,研究人员还进一步引入了多帧训练和时域聚合网络(Temporal Aggregation Network, TAN)。TAN中构建了一个简单的记忆机制来存储被追踪目标的历史查询信息。当前帧的追踪Query会与历史Query通过多头注意力机制相互作用,从而实现了长程时域相关性的建模。在这些技术的协同作用下,思路简单的MOTR成为了首个严格意义上的端到端多目标追踪架构,在追踪查询的辅助下不再需要基于手工操作的时域衔接、IoU匹配或追踪等额外的工作。

 

三、从DETR到MOTR的Query进化

 

不久前的DETR为目标检测任务提出了新的思路,其中目标查询和可学习的位置嵌入代表了一系列可能的实例位置。采用双边匹配后一个目标查询就对应着一个目标。随后可变形DETR进一步解决了DETR的高复杂度和收敛性慢的问题,将其中的自适应卷积替换成了多尺度可变形注意力。为了更好地展示目标查询在编码器中与特征的交互过程, 可变形DETR的解码过程可以表示为一系列查询q与一系列特征f的作用,其中K代表了解码器的层数,qk代表了第k层解码器的输出Gsa为DETR中的自注意力机制,而Gca为多尺度可变形注意力 :

 

 

但在DETR中引入的目标查询并不针对特别目标,会随着输入图像的改变而改变。当在MOT数据集中使用DETR方法进行检测时,相同的查询会在不同的图像中检测出不同的目标,难以将这些检测结果联系起来构成追踪序列,因此需要对这种方法进行针对性的改造才能适用于多目标追踪领域。

 

 

目标检测中的检测查询与MOTR中的追踪查询(下)对比, 其中追踪查询在视频帧中对应目标顺序 不会随着视频序列改变。

 

为了解决这一问题,研究人员将目标查询拓展到了追踪查询的概念,并在MOTR引入了追 踪查询和连续查询传递的方式来端到端地处理追踪预测问题。 在这一设计中,每一个追踪查询负责一个目标在视频中的完整追踪,一旦追踪查询与某帧中的目标完成匹配它就将持续负责这一目标的追踪直到其离开视频。 因此某一个追踪查询的预测结果自然就对应着特定目标的运动轨迹,无需再进行额外的时域连接和匹配操作了。 此外研究人员还引入了空查询的设置来负责新进入目标的追踪。

 

在此基础上,为了实现连续稳定的追踪,研究人员还在解码器部分引入了连续查询传递方式。 追踪查询可以在不同帧间传递和迭代更新目标的表示的位置,这就可以将目标的历史信息提供给当前帧的解码器,辅助进行预测。 在MOTR中,目标时域变化的建模可以通过解码器中的多头注意力机制来隐式的学习,MOTR的完整架构。

 

 

模型的整体架构,追踪查询在每一帧间逐个更新,每个查询负责一个目标的追踪,先前的历史信息可以为后面的预测提供支持。

 

视频序列 首先利用CNN和可变形的DETRE进行编码,为每一帧抽取出基本的特征序列f。T0时刻基础特征f0和空查询被送入解码器中来对所有的目标进行初始化定位处理,经过查询交互模块(Query Interaction Module, QIM)的处理生成了针对T1帧的查询序列q1。随后q不断与新输入的特征进行融合为后续的每一帧都生成了追踪查询,并加入了空查询qe来应对可能出现的新目标。这一过程不断迭代进行直到整个视频结束。

 

其中为下一帧生成查询序列的QIM包含了目标进入/离开机制以及时域聚合网络两个部分。在追踪查询的设计下,每个查询代表了对特定目标的完整追踪。但在视频序列中,还会遇到有新的目标出现和已有的目标离开,MOTR需要能够预测目标的出现和消失。在训练过程中,追踪序列的匹配可以通过与GT的双边匹配来实现。在推理时,则使用追踪分数来决定一个目标的出现和消失。

 

 

这一过程主要通过QIM来实现,输入是上一帧的查询,输出是包含新进入的目标和剔除消失的目标结果。 输入(橙)与空查询(黄)一起送入到解码器中得到当前帧的查询,查询将被分为进入和退出两部分。 新进入部分主要用于处理新出现的目标,一旦其分数大于阈值便保留开启追踪; 而退出部分则主要用于处理现有追踪,一旦连续M帧其追踪分数小于退出阈值,就将从查询序列中剔除这一结果。 而后上一帧的查询序列与退出处理后的序列输入到时域聚合网络中对历史信息进行处理(上图中右侧),QMB中与目标相同类别的记忆信息作为K、V,以退出机制处理后的查询生成Q,而后使用多头注意力机制来实现信息的聚合。 最终时域聚合后的信息与新进入的查询一起组合生成新的追踪查询序列。

 

四、实验验证

 

为了验证模型的性能,研究人员在MOT16和MOT17上分别进行了实验,其评测的指标包括了MOTA(Multiple-Object Tracking Accuracy多目标追踪精度)、MT(Mostly Tracked Trajectories最频繁追踪轨迹),ML(Mostly Lost Trajectories最易丢失轨迹),IDS(Identity Switches身份切换)和身份F1分数IDF1.其中IDF1主要用于度量轨迹的身份精度、MOTA则度量了模型的整体检测和追踪性能。

 

 

本文提出的MOTR方法与其他方法在MOT16和MOT17上的性能对比,在多个指标上实现了最优的结果。

 

下图中可以看到,本文中提出的多帧连续查询传递可有效解决追踪中因为遮挡重叠带来的身份交换问题。第一行 中视频长度为2,其中的目标在被遮挡后出现了身份交替问题;而第二行中视频长度增加到5,有了更丰富的时域建模信息,在时域信息的帮助下稳定地通过了遮挡。因此多帧训练可以获得更好的模型性能。

 

 

此外视频长度的增加还削减追踪框的重复。下图中第一行和第二行分别是长度为2和5的视频序列,在连续查询传递的作用下,五帧的序列中目标追踪框的重复明显消除。

 

 

这篇文章 通过创造性地提出了追踪查询的形式,消除了后处理的操作,用完全端到端的方式实现了多目标追踪任务 ,通过连续查询传递和查询相互作用有效处理时域信息,在多个指标上得到了优异的结果。

 

如果想要了解更多细节和实验原理,请参考论文和项目网站。

 

编译: T.R From: MEGVII

 

Illustrastion  by Maria Shukshina  from Ico ns8

 

– The End –

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注