Press "Enter" to skip to content

ICCV2021 Oral SimROD:简单高效的数据增强!华为提出了一种简单的鲁棒目标检测自适应方法

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

  写在前面

 

本文提出了一种简单有效的鲁棒目标检测无监督自适应方法(SimROD)。为了克服域转移(domain shift)和伪标签噪声(pseudo-label noise)等问题,本文的方法集成了 域中心增强方法(domain-centric augmentation method) 、 渐进的自标签适应机制(gradual self-labeling adaptation procedure) 和 教师指导的微调机制(teacher-guided fine-tuning mechanism) 。

 

使用本文的方法,目标域样本可以用来调整目标检测模型,而不改变模型结构或生成合成的数据。当应用于图像损坏和高级跨域自适应基准数据集上测试时,本文的方法在多个域自适应基准数据集上优于之前的baseline方法。

 

  1. 论文和代码地址

 

 

SimROD: A Simple Adaptation Method for Robust Object Detection

 

论文:https://arxiv.org/abs/2107.13389

 

代码:https://github.com/reactivetype/simrod

 

  2. Motivation

 

当测试集的数据分布和训练集相似时,SOTA的目标检测模型能够达到比较高的精度。但是,当部署到新环境中时,比如天气变化(如雨或雾)、光照条件变化或图像损坏(如运动模糊),模型的精度就会大幅度下降。

 

这种失败不利于自动驾驶等场景,在这些场景中,域转移是常见且不可避免的。为了使它们在以可靠性为关键的应用程序中取得更高的性能,使检测模型对域转移具有更强的鲁棒性是很重要的。

 

目前,已经提出了许多方法来克服域转移的目标检测。它们大致可以分为数据增强、域对齐、域映射和自标记技术。 数据增强 方法可以提高在一些固定的域位移集上的性能,但不能推广到与增强样本不相似的数据中。

 

域对齐 方法使用来自目标域的样本来对齐网络的中间特征。 域映射 方法使用图像到图像的转换网络(比如:GAN)将标记的源图像转换为看起来像未标记的目标域图像的新图像。

 

自标记 是一种不错的方法,因为它利用了来自目标域的未标记的训练样本。 然而,在域转移下生成准确的伪标签是困难的;当伪标签有噪声时,使用目标域样本进行自适应是无效的 。

 

在本文中,作者提出了一种简单的鲁棒对象检测自适应方法(SimROD),利用域混合数据增强和教师指导下的逐步自适应策略来减轻域转移的影响。SimROD主要有三个特点:

 

1)首先,它不需要目标域数据的Ground Truth标签,而是利用未标记的样本。

 

2)其次,它既不需要复杂的模型结构更改,也不需要生成模型来创建合成数据

 

3)第三,它与模型结构无关的,并不局限于基于区域的检测器。

 

  3. 方法

 

3.1. Problem statement

 

给定一个参数为的目标检测的源模型M,该模型由源训练数据集进行训练,其中是一个图像,每个标签由目标类别和边界框坐标组成。

 

原始源数据D的输入分布与目标测试集数据分布之间存在偏移的情况。即,而。

 

在无监督的域自适应设置中,可以目标域取出了一组未标记的图像,在训练中可以使用这部分数据。任务的目标是将模型参数更新到中,以在源测试集和目标测试集上都能实现良好的性能。为了有效地利用中的附加信息,需要解决两个问题:

 

1)首先,目标训练集没有Ground Truth标签。

 

2)其次,利用源模型为生成伪标签会导致由域位移引起的有噪声监督,阻碍了自适应过程。

 

3.2. Simple adaptation for Robust Object Detection

 

本文提出了简单的自适应方法SimROD,以实现鲁棒的目标检测模型。SimROD集成了 一种教师指导的微调 、 一种新的DomainMix增强方 法 和 一种逐步适应技术 。

 

3.2.1 Overall approach

 

 

本文方法的motivation是 标签噪声会被域位移加剧 。因此,本文的方法旨在在目标域图像上生成准确的伪标签,并将来自源域和目标域的混合图像一起使用,从而为模型的调整提供强有力的监督信号。

 

由于学生目标模型可能不足以生成准确的伪标签,作者首先使用可以生成高质量伪标签的辅助教师模型,然后再用学生模型进行微调。整个算法的流程如上图所示。大致可以分为几步:

 

1)基于源数据,训练一个比学生模型容量大的源教师模型,得到参数。源教师模型用于生成目标数据上的初始伪标签。

 

2)利用逐步适应算法,将大型教师模型参数从逐步更改为。在这一步中,使用的是由DomainMix增强生成的混合图像,而不是单独的源数据集或者目标数据集的图片。

 

3)使用自适应的教师模型参数来细化目标数据上的伪标签。然后,使用这些伪标签来微调学生模型。

 

这种方法的一个好处是,它可以使小模型和大模型同时适应域的转移,因为即使在学生网络很小时,它也能产生高质量的伪标签。另一个优点是,教师和学生不需要共享相同的结构。因此,教师模型可以选择的一个参数量大、计算量大的模型来提高精度,学生模型可以选择一个轻量级的模型。

 

3.2.2 DomainMix augmentation

 

 

在本文中,作者提出了一种新的增强方法DomainMix。如上图所示,它均匀地对来自源域和目标域的图像进行采样,并将这些图像连同其(伪)标签混合到一个新的图像中。

 

 

上图显示了一个来自自然和艺术领域的DomainMix 图像的示例。

 

DomainMix使用了许多简单的想法来减轻域的转移和标签噪声:

 

它通过从源和目标集中随机采样并混合图片,产生一组不同的图像。它在每个epoch都使用了不同的图像样本,从而增加了训练样本的有效数量,防止了过拟合(原理类似CutMix数据增强)。

 

它的数据处理效率比较高,因为它使用了来自这两个域的加权平衡采样。这有助于学习对数据转移具有健壮性的表示,即使目标数据集的样本有限或源和目标数据集高度不平衡。

 

它在同一幅图像中混合了Ground Truth标签和伪标签。这减轻了自适应过程中错误标签的影响,因为图像总是包含来自源域的准确标签。

 

 

DomainMix的数据增强方法如上图所示,对于一个Batch中的每一幅图像,首先从源和目标数据中随机抽取另外三张图像,并混合这些图像的随机crop,在2×2的模板中创建一个新的域混合图像。

 

并将伪标签和真实标签都标注到混合的图片中,目标的边界框坐标是根据新的混合图像中每个crop的相对位置计算的。此外,作者使用加权平衡采样器从这两个域中进行均匀采样。

 

3.2.3 Gradual self-labeling adaptation

 

接下来,作者提出了一个逐步适应的方法来优化检测模型的参数,该算法减轻了标签噪声的影响。由源模型生成的伪标签可能在目标域图像上有噪声,直接微调模型所有的层会阻碍模型的适应。

 

作者提出了一种分阶段性的方法。首先,冻结了所有的卷积层,在前w个epoch只适应BN层,在第一阶段结束后,BN层的参数就被更新了。

 

然后使用部分适应的模型来生成更精确的伪标签,为了简单起见,它被离线完成。 在第二阶段,所有的层都被解冻,然后使用精细的伪标签进行微调。 在这两个阶段,都使用由DomainMix增强生成的混合图像样本。 算法的流程如下所示:

 

 

  4.实验

 

4.1. Synthetic-to-real and cross-camera benchmark Datasets

 

Sim10K to Cityscapes

 

 

上表展示了Sim10K到Cityscapes上,本文方法和SOTA方法的对比。

 

 

上图展示了与之前的baseline相比,SimROD将模型从Sim10K调整到Cityscapes的有效性。

 

KITTI to Cityscapes benchmark

 

 

上表显示了KITTI到Cityscapes上,本文提出的SimROD在性能上优于各种baseline方法。

 

4.2. Cross-domain artistic benchmark

 

 

上表展示了VOC(真实图片)到Watercolor(水彩画)数据集上的性能对比。

 

4.3. Image corruptions benchmark

 

Main results

 

 

 

 

上表显示了Pascal-C、COCO-C和Cityscapes-C数据集上的Yolov5m模型的实验结果。

 

Ablation Study

 

 

上表显示了Yolov5m模型在Pascal-C数据集上不同模块消融的实验结果。

 

Qualitative analysis

 

 

上表展示了一些本文方法和其他方法的一些检测结果的例子。

 

  5. 总结

 

在本文中,作者提出了一种简单而有效的无监督方法来适应域位移下的检测模型。本文中的自标记框架采用了一种域中心的增强方法和教师指导的微调适应模型。基于现有的小模型和大模型,本文的方法在模型鲁棒性方面取得了显着的性能增益。 本文的方法不仅减轻了由于低级图像损坏而引起的域位移的影响,而且在源域和目标域之间存在高级风格差异时,它也可以适应模型。

 

这篇解决的问题是 如何让生成的伪标签更加好 ,因为如果直接用源模型生成伪标签效果并不好,会存在噪声。所以作者就把源模型生成的伪标签定义为初始伪标签,然后用一种数据增强的方式,将伪标签和真实标签都放在同一张图片中,类似CutMix,对教师模型进行微调。微调完了之后,再对目标数据集生成伪标签,这样的伪标签相比于初始伪标签的效果会更好。因此学生模型在这样的伪标签上进行微调效果也会更好。

 

▊  作者简介

 

研究领域:FightingCV公众号运营者,研究方向为多模态内容理解,专注于解决视觉模态和语言模态相结合的任务,促进Vision-Language模型的实地应用。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注