Press "Enter" to skip to content

CVPR 2021 | 大连理工大学卢湖川团队提出TransT: Transformer Tracking

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

CVPR 2021 文章专题

 

第·12·期

 

本文针对 CVPR 2021 接收的工作 ” Transformer Tracking ” 作出介绍。

 

本工作提出了 基于Transformer的特征融合模型,通过建立非线性语义融合和挖掘远距离特征关联有效聚合目标和搜索区域的全局信息 , 显着提升了算法的精准度 。TransT在多个跟踪数据集上达到目前最先进的性能,速度可达50 fps。

 

 

论文链接:

 

https://arxiv.org/abs/2103.15436

 

论文代码:

 

https://github.com/chenxin-dlut/TransT

 

一、引言

 

相关运算在视觉目标跟踪领域中发挥了重要作用,相关运算通过简单的相似性比较,来完成模板特征和搜索区域特征的交互,输出相似度图。然而,相关运算本身是一个局部的线性匹配,导致了语义信息的丢失和全局信息的缺乏。针对相关运算的局限性,本工作提出了 基于Transformer的特征融合模型,通过建立非线性语义融合和挖掘远距离特征关联有效聚合目标和搜索区域的全局信息 , 显着提升了算法的精准度 。TransT在多个跟踪数据集上达到目前最先进的性能,速度可达50 fps。

 

二、方法

 

如图1所示,TransT由三个部分组成: 主干网络、基于Transformer的特征融合网络、预测头部 。主干网络采用了修改版本的ResNet50,分别提取模板和搜索区域的特征。特征融合网络来对主干网络提取的两个分支的特征进行增强和融合。预测头部分为分类头和回归头,它们都是由三层全连接层构成的感知器,在融合的特征上进行前景和背景的二分类和边界框回归。接下来主要介绍基于Transformer的特征融合网络。

 

图 1 TransT结构图

 

红色虚线框内即为本工作提出的基于Transformer的特征融合网络,主要包含基于自注意力机制的ECA模块和基于互注意力机制的CFA模块。ECA模块进行特征的上下文信息增强,CFA模块对两个支路的特征进行融合。两个ECA模块和两个CFA模块构成一个特征融合层,特征融合层循环N次,最后接一个CFA模块解码出最终的特征。默认取N=4,在开源的代码链接中也提供了N=2的版本,速度可达70fps。

 

图2 ECA模块(左) 与CFA模块 (右)

 

ECA模块与CFA模块如图2所示,遵从Transformer的基本结构。ECA是一个基于多头自注意力机制的残差结构,它通过建立本支路特征的长距离依赖,使得每个特征点关注到有用的信息,来进行全局的特征增强。CFA是一个基于多头互注意力机制的残差结构,它对两个输入特征进行互注意融合,区别于相关运算的局部线性比较,CFA进行全局、非线性的特征融合,从而保留了丰富的语义信息,聚合了特征的全局信息。

 

图3是一次跟踪过程的注意力图的可视化,高亮的区域代表了注意力机制所关注的信息。从左到右,特征融合层不断加深;从上到下,分别是搜索区域分支本身的自注意力图、模板分支本身的互注意力图、模板特征对搜索区域特征的互注意力图、搜索区域特征对模板特征的互注意力图,最后一个单独的注意力图来自最后用来解码的CFA中的互注意力机制。

 

可以看到,第一列的上面两张图,此时两个分支还未产生交互,注意力机制会关注到所有实例,比较重要的信息(比如蚂蚁尾巴上的红点)会被重点关注。而之后的特征图已经产生了两支路特征的交互,随着层数的加深,搜索区域上的目标逐渐被分辨了出来。看上去对搜索区域的自注意会更关注于目标中心,而互注意会更关注于目标边界框。

 

另外,注意到对模板的注意力随着层数的加深,不再与图片的空间信息保持一致,可能是由于此时网络已经定位出目标,不需要再参考原始的模板信息;而模板分支的特征不断地关注搜索区域目标的边界信息,从而变为了一个具有丰富搜索区域信息的特征库,搜索区域分支只需要按需取用。

 

图3 注意力图的可视化

 

三、实验

 

我们在多个数据集上验证了算法的性能,包括三个大规模数据集TrackingNet、GOT-10k、LaSOT,以及三个小规模数据集NFS、OTB、UAV123。TransT的性能几乎大幅超越了所有目前流行的跟踪算法,性能接近的SiamR-CNN速度为TransT的1/10。此外,在开源代码的链接中也提供了VOT2020的性能,对于VOT2020我们使用了Alpha-Refine来补充mask,EAO可以达到48.8。

 

另外,TransT也尽可能去除了后处理以使得跟踪框架更简洁,对于Siamese跟踪器常用的余弦窗惩罚、尺度惩罚、边界框平滑,TransT只使用了余弦窗惩罚一种后处理方式,将测试时的超参由三个减少为一个,并且对所有数据集使用同一个参数,在测试时没有任何调参。

 

 

 

消融实验

 

我们探究了每个模块的影响,如下表所示,np代表去除后处理,仅依靠置信度来选择预测结果。可以看到,将CFA换为相关运算后,对性能影响很大,如果进一步去掉ECA,性能会受到更大影响,且后处理的影响显着变大,这是由于没有注意力机制来整合全局信息,网络只能更多地依赖于后处理中的先验信息。

 

 

四、总结

 

这篇工作我们提出了一个简单高效的跟踪算法TransT。得益于注意力机制建立 长距离依赖、融合全局信息 的特点,基于注意力机制的特征融合网络有效聚合目标和搜索区域的全局信息,使得算法在保持快速运行的同时,精度得到了显着提升。这篇工作没有使用过多技巧和调参,希望能为研究者们提供一个干净的baseline,如果大家有问题想要交流也可以随时在github上给我留言。

 

//

 

作者介绍

 

陈鑫 ,大连理工大学信通学院IIAU实验室二年级硕士生,此前于2019年7月从大连理工大学电子信息工程专业获得学士学位。目前的研究兴趣是视觉目标跟踪、目标检测等。

 

Illustrastion by Oleg Shcherba from Icons8

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注