Press "Enter" to skip to content

CVPR 2022|未标注视频也能训练目标检测?微软提出时空目标蒸馏框架STUD

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

构建稳定、可信度高的神经网络模型 是很多落地应用的重中之重,例如对于自动驾驶而言,精确的识别出道路上出现的各种目标可以保障车辆的正常行驶。因此,构建可以检测分布外(OOD)目标的目标检测器具有很高的实用价值。本文来自威斯康星大学麦迪逊分校和微软研究院,提出了一种 时空未知目标蒸馏框架(Spatial-Temporal Unknown Distillation,STUD) ,其可以在大量未标注视频中提取未知目标,并对原有目标检测模型的 决策边界进行规范化 。STUD目前已在OOD目标检测任务上达到SOTA性能,论文也被CVPR2022会议录用。

 

 

论文链接:

 

https://arxiv.org/abs/2203.03800

 

代码链接:

 

https://github.com/deeplearning-wisc/stud

 

一、动机

 

 

现有的目标检测任务设定中,在模型训练阶段和测试(推理)阶段, 目标类别类需要保持一致 。但是在一些情况中,模型面对在训练阶段从未见过的目标时,会以非常高的置信度将其识别成为其他目标。这是因为在模型训练过程中, 没有考虑分布外类别的不确定度性,而强行将网络的训练误差进行最小化 ,这使得网络只能在训练类别上过拟合。例如上图(a)中,在一个自动驾驶的场景中,目标检测器就将一只鹿识别成了行人,这种例子在开放环境(Open World)中数不胜数,对于实际视觉应用的危害也是致命的,为了应对这种情况,如果对复杂场景进行更加细粒度的数据标注是非常不现实的。 可行的方法是赋予网络自主发现未知目标的能力 ,并将新目标类别纳入到已有的决策边界中。

 

基于此,作者受蒸馏学习的启发,设计了一种时空蒸馏框架,主要由两个组件构成,分别完成以下操作:(1)从视频数据中提取出不同的未知目标,以及(2)用提取到的未知目标对检测器进行正则化处理。 前者分别从空间和时间两个维度上在线性组合的特征空间中选择未知目标,并通过不确定测度进行加权 。后者主要通过引入了一个未知-感知目标函数(unknown-aware training objective)来完成,该函数通过 优化模型的决策边界 ,使得模型对分布内类别产生更大的概率分数,而抑制OOD类别的分数,从而在测试阶段实现有效的OOD性能。

 

二、本文方法

 

本文方法STUD主要由两个分支构成,如下图所示,一个分支负责完成常规的目标检测任务,另一个分支负责发现未知目标类别并对模型进行正则化,两个分支联合训练,并且共享特征提取器和预测头。

 

 

本文方法的关键操作是发现未知目标,并尝试利用未知目标对模型进行正则化,为了达到这一目的,作者选择从大量的未标注视频数据入手,而不是图片数据, 这是由于视频数据中含有丰富的时序信息,这有助于模型的蒸馏过程 。值得注意的是, 本文的目标检测蒸馏过程是在目标(实例)级别进行的 ,而不是像其他图像OOD任务中针对图像级别进行异常值的计算和检测。也就是说,对于每一帧中的已知类别对象,STUD都会构建一个与之对应的OOD参照物集合。但是这种方式会面临未知目标出现的数量太多的问题,例如下图中展示了以汽车为已知类别,广告牌、树木、建筑物等对象都被视为汽车类别之外的未知目标,这无疑增加了未知样本的复杂程度,也增加了模型识别未知样本不确定度的难度。为了解决该问题,作者通过从视频数据的空间和时间两个维度对未知目标进行联合分析以应对这一挑战。

 

 

2.1 时空未知目标蒸馏

 

 

在空间维度上,作者首先选取一个关键帧 和参考帧 。同样如上图所示,对于关键帧中的每个已知类别对象 ,首先将其与参考帧中的所有目标通过线性组合构成样本对 , ,随后通过差异性测量进行加权。差异性计算是通过样本对之间的特征 距离得到:

 

差异测量结果如上图右侧的参考帧所示,其中的路灯和广告牌,具有和汽车更加明显的差异。随后,作者对参考帧中的所有未知对象的特征进行加权平均得到蒸馏到的未知目标特征 ,其中,权重 被定义为上一步计算得到的差异性测量的归一化指数,详细计算公式如下:

 

 

STUD的空间维度未知目标蒸馏机制只在单个参考帧上进行, 作者也将其拓展到了时间维度上,即将参考帧设置为关键帧之后连续的几帧,以捕获时间维度上更多的信息多样性 。我们仍然考虑一个自动驾驶场景,车辆以非常高的速度向前行驶,我们考虑的帧越多,模型可以观察到的未知物体就会更多,例如道路两旁更多的树木、建筑物和岩石。例如,作者在 区间中随机采样 帧,然后将 帧中出现的未知目标特征向量连接起来,通过差异性测度公式计算它们与关键帧 中对象的相异程度。 随后以在空间维度上同样的加权求和方式计算未知目标的特征。 是 融合 个参考帧后的未知目标综述,这种时间融合机制允许通过多个帧来搜索更加有意义和多样化的未知目标。

 

在经过时空蒸馏发现新的未知目标之后, 需要进行一个关键步骤,就是对从参考帧中发现的所有目标进行过滤,过滤的对象就是已知类别对象或者是来自背景的噪声对象 ,如果不对它们进行过滤,模型可能会对已知类别对象和未知类别进行混淆,从而在训练期间快速拟合这种简单的OOD模式。为了防止这种情况,作者引入了一个能量计算方式[1]对所有目标进行 能量过滤 ,结果表明,能量分数可以有效的过滤掉一些混淆样本。

 

 

2.2 未知-感知目标函数

 

本文STUD框架的损失函数由两部分构成,一部分是常规的目标检测损失,另一部分是未知-感知目标函数,该函数的任务是在学习目标检测能力的同时,对模型进行正则化, 正则化的目标就是对已知类别的目标产生较低的不确定性分数,而对未知类别的目标产生较高的不确定性分数 。整体目标函数定义为:

 

对于未知-感知目标函数,作者采用了他之前一个工作中的实现[2],该损失函数可以 对比的塑造不确定性分布的表面 ,从而放大已知目标和未知OOD目标之间的 可分离性 ,具体的做法是,使用上面提到的能量分数和蒸馏得到的未知目标特征,一起送入到一个逻辑回归分类器中,该分类器对已知类别目标计算较高的分类概率,对未知目标计算较低的分类概率,损失详细计算如下:

 

作者还可视化了提出的不确定性正则化损失 在Youtube-VIS数据集[3]上的训练收敛曲线,以及其中已知类别和未知类别目标的能量分数分布,可以看到STUD可以正确的收敛并且能够很好的分离蒸馏得到的未知目标和已知类别目标。

 

 

在模型蒸馏训练结束后,即在测试阶段,作者设置了一个不确定性阈值 ,以便大部分已知类别的目标可以像之前一样正常通过目标检测器中的分类头和边界框回归头得到预测结果。

 

三、实验效果

 

本文的实验用到了四个大规模视觉数据集,其中在BDD100K和Youtube-VIS两个视频数据集上进行了时空蒸馏训练,随后在MS-COCO和nuImages两个目标检测图像数据集上进行了OOD测试,在开始实验之前,作者进行了仔细的数据清洗, 以保证已知类别目标和未知OOD数据之间没有语义重叠 。本文使用AUROC和mAP作为评价指标,下表展示了本文方法与其他基线方法的性能对比。

 

 

结果表明,STUD有更加强劲的性能,这是因为其他大多数基线方法仅依赖于在已知类别数据训练的目标检测模型,而不会被未知目标正则化, 这样的训练方案容易对OOD数据生成较高置信度的预测 ,而STUD则有效的利用了这些未知数据。

 

此外,作者还进行了一系列的可视化对比,在下图中分别展示了没有蒸馏未知目标(顶部)和STUD(底部)的OOD检测效果。可以看到,STUD在识别OOD对象(使用绿色框标注)比普通的目标检测器好很多,同时也可以减少已检测到目标的误报率。

 

 

四、总结

 

本文将OOD任务从图像分类领域引申到了目标检测领域,并提出了一种有效的时空未知目标蒸馏框架STUD。STUD可以充分利用视频序列中丰富的时空信息,从而提取到了很多多样的未知目标数据,这些样本非常有效的改善了已知类别和未知类别之间的决策边界,有效的赋予模型感知外界OOD数据的能力。作者还希望通过该工作能够激发社区开发出更多对现实世界环境中感知目标的深度学习方法。

 

参考文献

 

[1] Weitang Liu, Xiaoyun Wang, John Owens, and Yixuan Li. Energy-based out-of-distributi on detection. Advances in Neural Information Processing Systems, 2020.

 

[2] Xuefeng Du, Zhaoning Wang, Mu Cai, and Yixuan Li. Vos: Learning what you don’t know by virtual outlier synthesis. Proceedings of the International Conference on Learning Representations, 2022.

 

[3] Linjie Yang, Yuchen Fan, and Ning Xu. Video instance segmentation. In 2019 IEEE/CVF International Conference on Computer Vision, ICCV 2019, pages 5187–5196, 2019.

 

作者: seven_

 

Illustration  b y Igor Kapustin f rom i cons8

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。