Press "Enter" to skip to content

从Grid R-CNN到Grid R-CNN Plus:基于网格的目标检测演化

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

研究动机

 

Grid R-CNN 是一种将传统两阶段检测算法中对于矩形框坐标回归转换成由 构建物体网格点的方法,由于同一水平线上网格点的互相纠正作用以及相邻网格点空间信息的融合,其探测结果质量高。 然而,其速度并不理想,因此 plus 版本在该基础上作了速度和精度提升。

 

在 Grid R-CNN 中对于一个物体来说,它所有的网格点共享一个相同的特征表达区域,并且此区域过于冗余。 为此, Grid R-CNN Plus 将网格分支的输入尺度从原来的 56×56 降低为 28×28,对于每个网格点,新的输出代表了原来大概四分之一的区域 ,该方法较 Grid R-CNN 不仅提升了速度还提升了精度,除此之外,还从网格分支网络的结构减重、 采样策略以及 NMS 等方面下手来提升模型速度。

 

研究方法

 

Grid R-CNN回顾

 

 

Grid R-CNN 这篇论文由商汤提出,主要对 Faster R-CNN 框架中定位框回归支路的更改,将以往通过回归方式实现 proposal 位置修正的方法,改为通过全卷积网络来实现目标定位框的精确修正。

 

如上图 (b) 的 3×3 个点,网格点的位置由像素级确定。因此,较之前的回归算法,网络就可以获得更多监督信息。但是由于点位置的预测和局部特征没有直接的关系,比如矩形框左上角的点和其相邻的背景区域点拥有类似的特征,也就是超出物体的角点像素的局部特征相似性。

 

针对上述问题,采用了多点监督的方式,通过在一个网格中定义目标点,可以获得更多信息来减少一些由于单点监督导致的不准确性。比如左上角的点可以由上边界中点和左边界中点进行校准。

 

除此之外,为了充分利用网格点的信息,提出了一种信息融合的策略。具体来说,对一个网格点来说,其多个相邻点的特征会被融合成一个特征图,这个融合后的特征图用于相应网格点的预测,使网格点的位置更加精准。

 

最后,为了弥补真实网格点超出 proposal 范围的问题,将 proposal 区域扩大以包含绝大多数网格点,扩大的计算公式由下图左边方式转换成右边方式:

 

 

总而言之, Grid R-CNN 的三个创新点:

 

多点监督策略

 

网格点特征融合策略

 

增大区域映射

 

网格点特定表示区域

 

对于 Grid RCNN Plus 来说,对速度提升效果最明显的就是网格点的特征表达区域,只有正样本(IOU>0.5)才会被送入 Grid branch,因此有些真实标签会被限制在监督图的一个小区域内。如下图所示:

 

 

在一个 3×3 的 grid point中,真实标签只会出现在监督热图的左上方区域,但这样是不对的,对于一个物体来说,它的所有的 grid points 共享一个相同的特征表达区域。

 

为了解决这个特征表达区域的问题,首先,将 grid branch 的输入尺度从原来的 56×56 降低为 28×28,对于每个 grid point,新的输出代表了原来大概四分之一的区域。经过这样处理后,每个 grid point 的表达可以近似的视为一个归一化的过程。

 

轻量网格分支

 

由于最后的输出尺度降低一半,那我们可以同时将 grid branch 中的其他特征图分辨率也降低,比如 14×14 到 7×7。细节来说,通过前面的 RPN+ROI Align 产生一个固定的 feature map 14×14,接着使用一个步长为 2 的 3×3 卷积核,然后再使用 7 个步长为 1 的 3×3 卷积核从而产生 7×7 分辨率的特征图。紧接着我们将这个特征分成 N 组(默认为 9 ),每一组关联一个 grid point,接着使用两个组反卷积将特征图尺度变为 28×28,注意 group deconvolution 可以加速上采样的过程。

 

另外一个好处是,由于我们对每个 grid point 的表达进行了归一化,因此他们变得更加 closer, 导致在特征融合时不需要使用很多的卷积层来覆盖这个间隙。在 Plus 版本,只使用了一个 5×5 depth-wise 卷积层来代替原来的 3 个连续的卷积层。

 

跨图片采样策略

 

由于 grid branch 在训练时只使用正样本,所以不同采样 batch 正样本数量也会不同,这种差异性会对精度产生影响,比如,有些图像的正样本很多,但有些图像的正样本数很少。

 

在 Plus 版本,作者使用了跨图片的采样策略,具体讲,从两个图片中一共采集 192 个 positive proposal,而不再是每张图片采集 96 个 positive proposal。这样就会使训练更具有鲁棒性。

 

一次性 NMS

 

原来的 Grid RCNN 需要两次 NMS,第一次是 proposal 的生成,只选择前 125 个样本进行边框矫正,第二次是做最后的分类,尽管只是一小部分的 proposal,进行 80 类的 NMS 还是很慢,所以在 Plus 版本,直接移除了第二个 NMS,同时将第一个 NMS 的 IOU 阈值设置为 0.3,分类阈值设置为 0.03,只选择前 100 个 proposal 进行进一步的分类和回归。

 

实验结果

 

 

与 Faster R-CNN, Grid R-CNN 在 COCO 数据集上的结果如上表所示,可见精度和速度都有提升,可见这些策略是有效果的。

 

总结

 

原版的 Grid R-CNN 对 Faster RCNN 做了很多精度上的优化,但是速度却慢于 Faster R-CNN,于是 Grid R-CNN Plus 就速度优化在四个方面进行了改进:

 

网格点特定表示区域

 

轻量网格分支

 

跨图片采样策略

 

一次性 NMS

作者丨孙明珊

学校丨哈尔滨工业大学(深圳)硕士生

研究方向丨目标检测

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注