Press "Enter" to skip to content

大年初一也不忘检测新框架!CBNetV2:复合主干网络的目标检测(附源代码)

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

计算机视觉研究院专栏

 

作者:Edison_G

 

现代性能最佳的目标检测器在很大程度上 依赖于主干网络 ,其进步通过探索更有效的网络结构带来一致的性能提升。然而,设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源,这使得获得更好的检测性能成本很高。

 

 

公众号ID |ComputerVisionGzq

 

学习群 |扫码在主页获取加入方式

 

 

论文:

 

https://arxiv.org/pdf/2107.00420.pdf

 

1

 

简要

 

现代性能最佳的目标检测器在很大程度上依赖于主干网络,其进步通过探索更有效的网络结构带来一致的性能提升。然而,设计或搜索新的主干并在ImageNet上对其进行预训练可能需要大量的计算资源,这使得获得更好的检测性能成本很高。

 

 

今天分享中,研究者通过构建现有开源预训练主干的组合,提出了一种新的主干网络,即 CBNetV2。特别是,CBNetV2 架构将多个相同的主干分组,这些主干通过复合连接连接。研究者还为基于CBNet的检测器提出了一个 更好的训练策略与辅助监督 。无需额外的预训练,CBNetV2可以集成到主流检测器中,包括一级和两级检测器,以及基于Anchor和Anchor Free的检测器,并 在 CO CO 的基 线 上显着提高其性能3.0%以上。此外,实验提供了强有力的证据,表明复合主干比预训练的更广泛和更深的网络更高效和资源友好,包括基于手动和基于NAS的网络,以及基于CNN和基于Transformer。

 

2

 

背景

 

 

如上图所示,研究者的解决方案名为 Composite Backbone Network V2 (CBNetV2) ,将多个相同的主干网络组合在一起。具体而言,并行主干网络(称为辅助主干和引导主干)通过复合连接连接。在上图中从左到右,辅助主干中每个阶段的输出流向其后续主干的并行和较低级别的阶段。最后,将主干的特征馈送到neck和检测头,用于边界框回归和分类。与简单的网络深化或拓宽相反,CBNetV2 整合了多个主干网络的高低层特征,逐渐扩大感受野以更高效地进行目标检测。

 

3

 

新框架

 

 

Same Level Composition (SLC)

 

一种直观而简单的复合风格是融合来自主干同一阶段的输出特征。

 

Adjacent Higher-Level Composition (AHLC)

 

受特征金字塔网络的启发,自上而下的pathway引入了空间上更粗糙但语义上更强大的高级特征,以增强自下而上 pathway 中的低级特征。在之前的CBNet中,研究者进行了相邻的高级组合(AHLC),将前一个主干的相邻更高级别阶段的输出馈送到后续的主干。

 

Adjacent Lower-Level Composition (ALLC)

 

与AHLC不同,研究者引入了一种自下而上的 pathway ,将前一个主干的相邻低级阶段的输出提供给后续主干。

 

Dense Higher-Level Composition (DHLC)

 

在DenseNet中,每一层都连接到所有后续层以构建综合特征。受此启发,研究者在CBNet架构中利用密集复合连接。

 

Full-connected Composition (FCC)

 

与DHLC不同,研究者将辅助主干网络的所有阶段的特征组合起来,并将它们馈送到主干中的每个阶段。如上图e所示,在比较DHLC的情况下,在低层次的情况下添加连接。

 

 

新提出的CBNet架构(K = 2)与RCNN的展开架构之间的比较。

 

 

CBNetV2的一个例子如上图b所示。除了使用主干特征训练检测头1的原始损失外,另一个检测头2将辅助主干特征作为输入来产生辅助监督。请注意,检测头1和检测头2是权重共享。辅助监督有助于优化学习过程,而开始的主干原始损失承担了最多的责任。 研究者增加权重来平衡助理监督,其中总损失表示为:

 

 

4

 

实验

 

 

新提出的方法与最先进的检测器在COCO目标检测和实例分割方面的比较结果。

 

 

Visualization of class activation APping, using ResNet50 and Dual-ResNet50 as backbone. The baseline detector is Faster R-CNN ResNet50 with 800 × 500 input size. For each backbone, we visualize the stage 2 viewed in color.

 

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注