Press "Enter" to skip to content

PoolNet论文详解

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

暂略

 

3. PoolNet

high-level semantic features are helpful for discovering the specific locations of salient objects.
low- and midlevel features are also essential for improving the features extracted from deep layers from coarse level to fine level.

3.1. Overall Pipeline

基于FPN(一种U型结构,从底向上和自顶向下,优点是可以组合多层特征)
在从底向上之后引入GGM,提取高级语义信息后将其与各个金字塔层融合。
GGM之后,引入FAM保证不同尺度的特征图可以无缝融合。

3.2. Global Guidance Module

 

现有不足

 

FPN的问题

 

问题之一:自顶向下是在自底向上之后的,就是高级特征被传给低层时会逐渐稀释。

 

CNN的问题

 

根据实验,CNN的感受野比理论上要小得多, 特别是对于较深的层
,所以整个网络的感受野并不足够大以捕捉输入的全局信息。

 

直接影响

 

可以看原文图2,只能检测到显着目标的局部。

 

解决方法:GGM

 

使得每个尺度的特征图都可以感知显着目标的位置。

 

PPM

 

包括4个子分支,作用是 捕获
输入图像的上下文信息。

 

第一和最后一个子分支分别是一个identity mapping layer和一个global average pooling layer。

 

中间的两个分支,我们采用adaptive average pooling layer,以确保它们输出的特征图分别具有3×3和5×5的空间大小。

 

GGF

 

作用是将PPM捕捉到的信息与接下来自顶向下中不同金字塔层的特征图合理地 融合
在一起。

 

与SRM(A stagewise refinement model for detecting salient objects images)不同,它是将PPM视为U形结构的一部分,而本文中的GGM独立于U形结构。

 

如原文图1中的绿色箭头,通过引入一系列GGF(identity mappings),可以将高级语义信息传递到各个级别的特征。

 

这样,我们在自上而下路径的每个部分中显式增加了全局导航信息的权重,以 确保在构建FPN时不会稀释位置信息

 

可以看原文图2,观察GGF的具体作用。

 

3.3. Feature Aggregation Module

 

解决的问题

 

使GGM的粗略特征图与金字塔不同尺度的特征地图无缝融合。

 

具体来讲,在原始的FPN(VGGNet版本)中,高层特征图上采样比率为2,所以在上采样后边加一个3×3的卷积可以减少其带来的aliasing effect。

 

但是, GGF还需要更大的上采样比率
,比如8。所以使用FAM充分、高效地处理GGF和不同金字塔层特征图之间巨大的尺寸差异。

 

FAM

 

结构

 

每个FAM包含4个子分支,如原文图3所示。在forward过程中,输入的特征图先以不同比率进行下采样(平均池化),然后再以不同比率进行上采样,然后将4个分支融合(sum),然后送入一个3×3的卷积层。

 

优点

减少上采样带来的aliasing effect,特别是当上采样比率较大(比如8)的时候。
使每个spatial location(空间位置)可以看到不同尺度空间的局部上下文信息,而且增大了整个网络的感受野。

 

原文图4

 

将FAM替换成2个卷积层进行对比,把FAM模块附近的特征图可视化,证明FAM可以更好地捕捉显着目标的位置和细节信息。

 

原文图2

 

f列和g列(尤其是第2行)进行对比,证明引入FAM可以sharpen显着目标的细节信息。

 

在下文的实验部分,会给出更多的数值结果。

 

4. Joint Training with Edge Detection

 

问题

 

第3节描述的网络结构已经在多个常用评估准则上超过了之前所有SOTA的单个模型的结果。

 

但是原文作者发现 许多不准确(incomplete or over-predicted)的预测是由于不清晰的目标边界造成的

 

Edge Detection Branch

 

在第3节描述的结构中添加1个预测分支, 用来estimate显着目标的边界
,具体结构见原文图1。

 

在3个不同尺度的FAM之后添加3个residual block, 用来information transformation
,这3个residual block和 ResNet
的设计相似并且具有 {128,256,512}
个通道(从fine level到coarse level);和 Richer convolutional features for edge detection
一文相同,每个residual block后面都有1个16通道的3×3卷积层( 用来feature compression
),还有1个单通道的1×1卷积层( 用来边缘检测
)。

 

将上述3个16通道的3×3特征图进行拼接(concatenate)然后将其送入3个连续的48通道3×3卷积层,以将捕捉到的边缘信息传递给显着性目标检测分支, 用来增强细节

 

Train Edge Detection Branch taking the boundaries of salient objects as GT

 

Instancelevel salient object segmentation
一文相似,本文在训练阶段将显着目标的边界作为GT 用来联合训练
,然而这并没有带来任何性能提升并且仍然缺少目标边界的细节信息。如图5的c列,当场景的前后景对比度较低时,得到的显着性图和边界图仍然很模糊。 导致这个问题的原因可能是来自显着目标的GT边界图仍然缺少显着目标的大部分细节信息
。GT边界只告诉我们显着目标的外边界的位置,特别是当显着目标之间有重叠的时候。

 

Train Edge Detection Branch taking the boundaries of salient objects as GT

 

根据上述内容,本文尝试了和边缘检测任务实现协同训练,使用和和 Richer convolutional features for edge detection
一文中相同的数据集。在训练时,来自显着目标检测数据集和边缘检测数据集的图像被交替输入。如图5所示,和边缘检测任务实现协同训练大幅提升了检测到的显着目标的细节。在下文实验部分,会给出更多的定量分析。

 

5. Experimental Results

 

5.1. Experiment Steup

 

实现细节

 

使用PyTorch框架,所有实验中的学习率优化器为Adam(5e-4的weight decay,初始学习率为5e-5然后15个epoch之后除以10)。

 

本文的网络共训练24个epoch。

 

网络backbone(如VGG-16、ResNet-50)的参数通过在ImageNet数据集上预训练的对应模型进行初始化,剩余参数随机初始化。

 

如果没有特别声明,本文中消融实验(ablation )默认使用VGG-16作为backbone,并使用和 Instancelevel salient object segmentation
一文相同的联合数据集(MSRA-B和HKU-IS)。

 

本文在数据增强方面只使用了水平翻转。

 

在训练和测试中,和 Deeply supervised salient object detection with short connections
一文中一样,输入图片的尺寸保持不变。

 

数据集和损失函数

 

在6个常用数据集(ECSSD、PASCALS、DUT-OMRON、HKU-IS、SOD和DUTS)上开展实验以评估性能。

 

显着性目标检测中使用使用standard binary cross entropy loss,边缘检测使用balanced binary cross entropy loss。

 

评估标准

 

使用3个广泛应用的指标(PR曲线、F-measure score和MAE)评估本文提出的方法。

 

5.2. Ablation Studies

 

ablation的译文是消融。

 

该section首先研究GGM和FAM的有效性,然后开展实验研究如何配置GGM,最后研究协同训练对性能的影响。

 

Effectiveness of GGM and FAMs

 

基于FPN的baseline,以VGG-16为backbone,研究GGM和FAMs的有效性。除了GGM和FAMs的不同组合,其它所有配置都相同。原文表1展示了其在数据集DUT-O和SOD上的性能,对应的视觉比较可以在原文图2中看到。

 

GGM Only

 

原文表1第4行数据说明GGM提升了F-measure和MAE。 GGM生成的全局指导信息使网络更多地关注显着目标的完整性,大幅提升了所得显着性图的质量。因此,显着目标的细节(这些细节容易被感受野有限的模型错误预测为背景,比如原文图2的最后1行)可以被增强

 

FAMs Only

 

原文表1第5行的数据说明简单地将FAMs嵌入到原文图1所示的FPN baseline中提升了F-measure和MAE。这可能是因为 FAM中的池化操作扩大了整个网络的感受野
,并且FPN baseline仍然需要融合不同尺度的特征图,这说明 FAM了缓解上采样aliasing effect的有效性

 

GGM & FAMs

 

原文表1最后1行的数据说明同时引入GGM和FAMs可以得到更优的F-measure和MAE, 这说明GGM和FAM是互补的。通过它们可以精确地定位显着目标并改善其细节(如图2所示)。原文图6中包含更多的定性结果。

 

Configuration of GGM

 

为更好地了解GGM,独立使用PPM和GGF开展实验,数据分别在原文表1的第2行和第3行。这2个实验的结果都比使用GGM时的结果(原文表1第4行的数据)。 这说明PPM和GGF在GGM中都起着重要作用。

 

The Impact of Joint Training

 

如原文表2所示,在3个数据集上,将显着目标边界(SalEdge)作为GT进行训练并没有提升baseline的性能,而使用标准的边缘(StdEdge)作为GT可以大幅提升baseline的性能,特别是MAE。这说明 引入详细的边缘信息有助于显着性目标检测

 

5.3. Comparisons to the State-of-the-Arts

 

该section比较了本文方法和13个SOTA方法(具体是哪13个方法见原文,此处省略)。为公平比较,这13个方法的结果是原结果或者使用初始公开代码得到的结果。所有结果都不经过任何后处理,所有预测得到的显着性图都使用同一份代码进行评估。

 

Quantitative Comparisons

 

如原文表3所示,分别使用VGG-16和ResNet-50作为backbone,并在多份训练集上开展实验以 排除潜在的性能波动
。可以看到,在相同的训练集上,使用相同的backbone,PoolNet超过了之前所有的SOTA方法。平均速度(FPS)对比如原文表4所示。

 

PR Curves

 

原文图7为在3个数据集上的PR曲线,可以看到PoolNet的PR曲线优于其它算法。随着Recall值趋于1,PoolNet的Precision比其它算法高很多。这说明PooNet得到的显着性图的错误正样本(false positives)较少。

 

Visual Comparisons

 

原文图6给出了PoolNet和其它算法的定性对比。从上到下,分别是 透明目标、小目标、大目标、复杂形状和前背景低对比度
。可以看出,在几乎所有环境下,PoolNet不仅可以正确找出显着目标,还可以增强它们的边缘。

 

6. Conclusion

 

本文设计GGM和FAM两个模块,提出PoolNet,并和边缘检测任务实现协同训练,在6个常用数据集上的效果优于之前所有SOTA方法。

 

GGM和FAM是独立于网络结构的, 可以灵活地迁移到任何基于金字塔的模型

 

Github(github.com): @chouxianyu

 

Github Pages(github.io):@臭咸鱼

 

知乎(zhihu.com): @臭咸鱼

 

博客园(cnblogs.com): @臭咸鱼

 

B站(bilibili.com): @绝版臭咸鱼

 

微信公众号: @臭咸鱼

 

转载请注明出处,欢迎讨论和交流!

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注