Press "Enter" to skip to content

CVPR2022|全新两阶段HOI检测Transformer登场,探索交互自注意力新范式

本文介绍一篇刚刚被CVPR2022接收的有关于 人-物交互检测(HOI)的论文 ,来自澳大利亚国立大学和牛津大学。本文是视觉Transformer(ViT)模型在HOI领域的最新尝试,由于ViT[1]、Swin ViT[2]在分类领域以及DETR[3]在检测领域的卓越表现,目前已有很多工作在更高级的视觉任务上结合Transformer强大的表示能力来提高性能。 本文的出发点是使用可学习的query机制代替传统检测任务中的区域提议框(region proposals) ,提出了一种新颖的两阶段Unary-Pairwise Transformer,本文的实验在HICO-DET和V-COCO两个权威数据集上进行,实验结果已达SOTA,此外,整体框架在两阶段的设置下仍然能在推理阶段达到实时性能。

 

 

论文链接:

 

https://arxiv.org/abs/2112.01838

 

代码链接:

 

https://github.com/fredzzhang/upt

 

一、引言

 

人-物交互检测(HOI)任务需要在定位到图像中人物和交互目标的同时 对交互动作进行识别和分类 。目前的技术路线主要有两种,分别是单阶段检测器和两阶段检测器。前者的处理流程类似于RetinaNet 在整个网络中都保留对象的抽象特征表示 ,直到网络末端才把它们解码成边界框和交互类别分数。后者的处理流程类似于Faster R-CNN,首先通过region proposal网络生成一定量的区域框,然后再 对这些区域框进行显示编码,再通过下游网络进行回归和进一步分类 。与普通目标检测任务不同的是,HOI还需要检测到人-物交互点位置,即人和物体中心连线的中点。

 

本文使用Transformer解码器中可学习的query机制来定位人和物体,但是如果直接将DETR等结构进行迁移时,会遇到很多问题,例如直接使用DETR的预训练权重初始化时 ,解码器会倾向于只检测高置信度的目标区域,而忽略交互动作发生的区域 。这使得网络在HOI数据集上训练时,并不能完全利用Transformer backbone的表征能力,而是仅仅将它作为一个目标检测器,这实际上是一种资源的浪费。为了避免这些问题,本文提出的Unary-Pairwise Transformer通过设置额外的transformer层来细化DETR的输出特征来进行HOI分类,具体流程如下图所示:

 

 

Unary-Pairwise Transformer以两种形式对实例对象进行编码: 一种是分别对单独的人和对象进行编码的一元表示(Unary),另一种是对人-物对联合编码的成对表示(Pairwise) 。这些表示提供了不同的交互信息, 其中一元编码器层可以增加正例的预测交互分数,成对编码器层则会抑制负例的分数 。两者形成互补可以提升模型的整体性能。

 

二、本文方法

 

本文的框架主要建立在DETR的基础上,使用DETR作为骨干目标检测器,随后通过简单高效的交互检测头(Interaction Head)进行后续的HOI任务。整体的框架如下图所示,输入图像首先经过CNN网络提取视觉特征, 这些特征随后被划分成大小相等的特征块,并通过正弦位置编码进行增强得到token 。随后被送入到DETR编码器和解码器中,生成固定数量的对象query向量,并由一个MLP解码为目标分类分数和边界回归框。这些query向量同样也作为一元对象的特征传递给交互检测头, 交互检测头首先通过位置编码来细化一元对象(Unary)的tokens,然后对这些细化后的特征进行分组构成成对(Pairwise)tokens ,随后再通过一个标准的transformer编码层对这些tokens进行交互类别的预测。

 

 

需要注意的是,在交互检测头中作者分别使用两个不同的Transformer层来处理一元对象和成对对象, 其中一元层中的自注意力机制优先提升正样本的HOI交互分数,而成对层中的注意力可以有效降低负样本对的HOI分数 ,因此作者形象的将这两个层分别称为 合作层(cooperative layer)和竞争层(competitive layer) ,下面详细介绍这两个层的构造和特点。

 

2.1 合作层(Cooperative layer)

 

对于HOI检测任务而言, 位置信息的融合和利用是至关重要的 ,普通的Transformer编码层只能对输入的tokens进行自注意力特征的计算,对于位置信息只能通过正弦位置编码或其他编码方式来弥补。但是在HOI的任务设定中,一 元对象的tokens中天然自带位置信息(其会在后续的MLP中解码成边界框) 。但是对于二元对象而言,位置信息的注入面临一种无从下手的情况,本文的合作层为此提供了一种解决方案。合作层修改了原始Transformer层中的注意力操作,并将一元对象的位置信息转换成为成对的空间信息,输入到修改后的Transformer层中, 其中的输入信息包含一元对象框的中心坐标、宽度和高度,以及成对对象的IoU、重叠区域和交互方向等 ,并针对这些信息重新设计了注意力权重计算过程,如下图所示:

 

 

令 为一元对象token的集合,令 为成对对象的位置编码,在实际操作中,会先将每个一元对象进行两两之间的组合,其中需要对成对组合(pairwise)和重复一元对象组合(duplication)进行区分,分别用 和 表示,具体形式如下:

 

随后分别对这两种成对组合融入位置向量 并计算注意力权重,具体计算公式如下:

 

2.2 竞争层(Competitive layer)

 

合作层的主要任务是对检测器检测到的所有一元对象进行细化,并将实际发生交互动作的成对对象进行特征组合和位置信息嵌入。竞争层主要负责对成对对象的tokens进行计算,在计算之前, 作者先从中删除了第一个目标不是人类的token,因为对象-对象的交互以及超出了HOI检测的范畴 ,势必会对训练带来噪声。随后作者引入了一个多分支融合(MBF)模块[4]来对输入的成对token进行计算:

 

具体来说,MBF模块的操作本质上是在多个分支中融合两种模态的信息,并返回统一的特征表示。经过MBF模块计算后,成对tokens被送入到最后的MLP中进行交互动作的分类,整个HOI检测流程结束。

 

三、实验效果

 

本文分别在HICO-DET和V-COCO数据集上进行了实验,其中HICO-DET是一个大规模的HOI数据集,包含了37633幅训练图像,9546幅测试图像。相比起来V-COCO的规模要小很多,其中包含2533幅训练图像、2867幅验证图像和4964幅测试图像。本文使用mAP作为评价指标,下表展示了本文模型在三个不同的骨干网络上的性能对比,值得注意的是,本文方法在最轻量级的骨干网络上的性能都超越了其他对比方法,这展现了本文方法对骨干网络的再利用能力。

 

 

此外,作者还对提出的交互检测头进行了可视化分析,如下图所示,作者选取了一个“人骑马”的交互样本进行分析,右侧展示了来自一元(合作)层的相关度注意力图,可以看到,由于人-物对(1,4),(2,5)和(3,6)都发生了“人骑马”的交互动作, 相应的在注意力上都显示出了较高的相关度(除了对角线之外) 。此外,作者还假设这些正样本对之间的注意力有助于提升交互分数,为了验证这个假设,作者先手动将这三个正对之间的注意力权重设置为0,结果显示这三个样本对的交互得分平均降低了8%。

 

 

下图中展示了本文方法的一些检测效果,其中包含很多复杂的视觉场景,例如在图(b)中,模型准确的识别出了交互的主题(红衣女士顶雨伞),尽管她非常靠近另一个未发生交互动作的目标(黑衣女士)。

 

 

四、总结

 

本文针对HOI交互检测问题提出了一种新的视觉Transformer网络Unary-Pairwise Transformer,该Transformer架构巧妙利用了人-物目标实例之间的一元和成对表示,并设计了新颖的合作层和交互层来将交互对象和交互区域的位置信息融入到Transformer的自注意力计算中。文中还通过一系列的实验分析,证明了一元token之间的attention可以起到增加正例分数的作用,而pairwise tokens之间的attention起到了非最大抑制的作用,降低了负例的分数,这两种效果之间形成互补,共同协作提高了整体的HOI性能。

 

参考文献

 

[1] Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv:2010.11929, 2020.

 

[2] Liu Z, Lin Y, Cao Y, et al. Swin transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 10012-10022.

 

[3] Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//European conference on computer vision. Springer, Cham, 2020: 213-229.

 

[4] Frederic Z. Zhang, Dylan Campbell, and Stephen Gould. Spatially conditioned graphs for detecting human-object in- teractions. In Int. Conf. Comput. Vis., pages 13319–13327, October 2021. 2, 3, 4, 5, 10

 

作者: seven_

 

Illustration   by Violetta Barsuk fro m i cons8

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注