Press "Enter" to skip to content

【文献翻译】Concealed Object Detection(伪装目标检测)

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

文章目录

 

Concealed Object Detection

 

伪装目标检测

 

原论文下载地址:https://arxiv.org/pdf/2102.10274.pdf

 

Abstract

 

我们首次对隐藏目标检测(COD)进行了系统研究,旨在识别视觉上嵌入在背景中的目标。隐藏对象与其背景之间的高度内在相似性使得COD比传统的对象检测/分割更具挑战性。为了更好地理解这项任务,我们收集了一个称为COD10K的大规模数据集,该数据集由10000幅图像组成,涵盖了78个对象类别中各种真实场景中的隐藏对象。此外,我们还提供了丰富的注释,包括对象类别、对象边界、挑战性属性、对象级标签和实例级注释。我们的COD10K是迄今为止最大的COD数据集,具有最丰富的注释,能够全面理解隐藏对象,甚至可以用于帮助完成其他一些视觉任务,如检测、分割、分类等。基于动物在野外狩猎的动机,我们还为COD设计了一个简单但强大的baseline,称为搜索识别网络(SINet)。SINet在所有测试数据集上的表现都超过了12条最前沿的baselines,这使得它具有强大的通用架构,可以作为COD未来研究的催化剂。最后,我们提供了一些有趣的发现,并强调了一些潜在的应用和未来的方向。为了激发这一新领域的研究,我们的代码、数据集和在线演示可以在我们的项目页面上找到 http://mmcheng.net/cod.

 

1 Introduction

 

你能在10秒内在图1的每个图像中找到隐藏的物体吗?生物学家将其称为背景匹配伪装(background matching camouflage, BMC)[2],其中一个或多个物体试图调整其颜色,使其与周围环境“无缝”匹配,以避免被发现[3]。感觉生态学家发现,这种BMC策略通过欺骗观察者的视觉感知系统来起作用。当然,解决隐蔽目标检测(COD)需要大量的视觉感知知识。了解COD本身不仅具有科学价值,而且对于许多基础领域的应用也很重要,例如计算机视觉(例如,搜索和救援工作或稀有物种发现)、医学(例如,息肉分割[7]、肺部感染分割[8])、农业(例如,蝗虫检测以防止入侵)和艺术(例如,娱乐艺术[9])。

 

 

在图2中,我们给出了通用、显着和隐藏对象检测的示例。目标和非目标之间的高度内在相似性使得COD比传统的目标分割/检测更具挑战性【10】、【11】、【12】。尽管最近受到了越来越多的关注,但关于COD的研究仍然很少,主要是因为缺乏足够大的数据集和标准基准,如Pascal VOC【13】、ImageNet【14】、MS-COCO【15】、ADE20K【16】和DA VIS【17】

 

在本文中,我们首次利用深度学习对隐藏目标检测任务进行了全面的研究,从隐藏的角度为目标检测带来了新的视角。

 

1.1 Contributions

 

我们的主要贡献如下:

 

1)COD10K数据集。基于上述目标,我们仔细收集了大规模隐蔽目标检测数据集COD10K。我们的数据集包含10000幅图像,涵盖78个对象类别,如陆地、两栖动物、飞行、水生动物等。所有隐藏图像都用类别、边界框(bounding-box)、对象级别(object-level)和实例级别(instance-level)标签进行了分层注释(图3),有利于许多相关任务,如对象提议、定位、语义边缘检测、转移学习[21]、域自适应[22],等等。每个隐藏的图像都被赋予了挑战性的属性(例如,形状复杂度SC、不可定义的边界IB、遮挡SOC),这些属性是在现实世界和matting level标签中发现的(这需要∼每幅图像60分钟)。这些高质量的标签有助于深入了解模型的性能。

 

2)COD框架。我们提出了一个简单而有效的框架,名为SINet(搜索识别网)。值得注意的是,SINet的总训练时间为4小时,在所有现有COD数据集上都达到了最新水平(SOTA),这表明它可以为隐蔽目标检测提供潜在的解决方案。我们的网络还产生了一些有趣的发现(例如,搜索和识别策略适用于COD),使各种潜在的应用更加可行。

 

3)COD基准(Benchmark)。根据收集的COD10K和之前的数据集【24】、【25】,我们对12条SOTA基线进行了严格评估,使我们的COD研究成为最大的COD研究。我们在两种情况下报告基线,即超类(super-class)和子类(sub-class)。我们还通过在线基准跟踪社区的进展(http://dpfan.net/camouflage/)。

 

4)下游应用程序。为了进一步支持该领域的研究,我们开发了一个在线演示(http://mc.nankai.edu.cn/cod),使其他研究人员能够轻松地测试他们的场景。此外,我们还展示了一些潜在的应用,如医学、制造业、农业、艺术等。

 

5)未来方向。基于提出的COD10K,我们还讨论了未来十个有希望的研究方向。我们发现,隐蔽目标检测问题远未得到解决,还有很大的改进空间。

 

 

本文在几个方面基于并扩展了我们的会议版本[1]。首先,我们对COD10K进行了更详细的分析,包括分类、统计、注释和解析。其次,我们通过引入邻居连接解码器(neighbor connection decoder,NCD)和组反转注意(group-reversal attention,GRA)来改进SINet模型的性能。第三,我们进行了大量的实验来验证我们的模型的有效性,并在我们的框架内为不同的模块提供了一些消融实验(ablation studies )。第四,我们提供了详尽的超类和子类基准测试,并就新的COD任务进行了更深入的讨论。最后,基于我们的基准测试结果,我们得出了一些重要的结论,并指出了隐藏对象排序、隐藏对象提取、隐藏目标实例分割(concealed object ranking, concealed object proposal, concealed instance segmentation)等未来的发展方向。

 

2 Related Work

 

在本节中,我们简要回顾了密切相关的工作。在[10]之后,我们大致将目标检测分为三类:一般、显着和隐藏目标检测(generic, salient, and concealed)。

 

**通用目标分割(Generic Object Segmentation ,GOS)**计算机视觉中最流行的方向之一是通用对象分割[5]、[26]、[27]、[28]。请注意,通用对象可以是突出的,也可以是隐藏的。隐藏对象可以看作是一般对象的困难情况。典型的GOS任务包括语义分割和全景分割(见图2 b)。

 

**显着目标检测(Salient Object Detection,SOD)**此任务旨在识别图像中最引人注目的对象,然后分割其像素级轮廓【29】、【30】、【31】。利用SOD技术的旗舰产品是华为的智能手机,它利用SOD技术来制作他们所谓的“AI自拍”。最近,秦等人将SOD算法应用于两个(接近)商业应用:AR COPY&PASTE和OBJECT CUT。这些应用程序已经引起了极大的关注(12K github stars),并具有重要的现实影响。尽管术语“显着”本质上与“隐藏”(standout vs. immersion)相反,但显着物体仍然可以为COD提供重要信息,例如,包含显着物体的图像可以用作负片样本。对SOD进行全面审查超出了本工作的范围。我们建议读者参考最近的调查和基准论文【11】、【34】、【35】、【36】,了解更多详细信息。我们的在线基准测试在 http://dpfan.net/socbenchmark/.

 

**伪装物体检测(Concealed Object Detection,COD)**对COD的研究在生物学和艺术领域有着悠久而丰富的历史,对提高我们的视觉感知知识有着巨大的影响。阿伯特·塞耶(AbbottThayer)[37]和休·科特(HughCott)[38]关于隐蔽动物的两项杰出研究仍然具有巨大影响力。读者可以参考Stevens等人的调查,了解有关这段历史的更多细节。本次提交后,还接受了一些并行工程【39】、【40】、【41】。

 

COD数据集。变色龙(CHAMELEON)[24]是一个未发布的数据集,只有76幅图像带有手动注释的对象级地面真实性(GTs)。这些图像是通过谷歌搜索引擎从互联网上以“隐藏的动物”为关键词收集的。另一个当代数据集是CAMO【25】,它有2.5K图像(2K用于训练,0.5K用于测试),涵盖八个类别。它有两个子数据集,CAMO和MS-COCO,每个子数据集包含1.25K图像。与现有数据集不同,COD1K的目标是提供一个更具挑战性、更高质量、注释更密集的数据集。COD10K是迄今为止最大的隐蔽目标检测数据集,包含10K图像(6K用于训练,4K用于测试)。详见表1。

 

 

伪装的类型。隐藏图像大致可以分为两类:含有天然伪装的图像和含有人工伪装的图像。动物(如昆虫、海马和头足类)使用自然伪装作为一种生存技能,以避免被捕食者识别。相反,人工伪装通常用于艺术设计/游戏中隐藏信息,出现在产品制造过程中(所谓的表面缺陷[42]、缺陷检测[43]、[44]),或出现在我们的日常生活中(例如,透明物体[45]、[46]、[47])

 

COD公式。与语义分割等类感知任务不同,隐藏对象检测是一项与类无关的任务。因此,COD的公式简单且易于定义。给定一幅图像,该任务需要一个隐藏对象检测算法为每个像素i分配一个标签 L a b e l i Label_i L a b e l i ​ ∈ {0,1},其中 L a b e l i Label_i L a b e l i ​ 表示像素 i 的二进制值。0的标签被赋予不属于隐藏对象的像素,而1的标签表示像素被完全分配给隐藏对象。我们专注于对象级(object-level)隐藏对象检测,将隐藏实例检测(instance detection)留给我们未来的工作。

 

3 COD10K 数据集

 

新任务和数据集[16]、[48]、[49]的出现导致了计算机视觉各个领域的快速发展。例如,ImageNet[50]彻底改变了视觉识别中深度模型的使用。有鉴于此,我们研究和开发COD数据集的目标是:(1)从隐蔽的角度提供一个新的具有挑战性的目标检测任务,(2)促进几个新主题的研究,以及(3)激发新的想法。图1显示了COD10K的示例。我们将从三个关键方面提供COD10K的详细信息,包括图像采集、专业注释以及数据集功能和统计。

 

数据集这块就不写了,有兴趣可以去看原论文

 

3.1 图像采集

 

3.2 专业注释

 

3.3 数据集功能和统计信息

 

4 COD 框架

 

4.1 网络概述

 

图13示出了所提议的SINet(搜索识别网络)的整体隐藏对象检测框架。接下来,我们将解释我们的动机并介绍网络概述

 

 

动机。生物学研究[58]表明,捕食者在捕猎时,首先会判断是否存在潜在的猎物,也就是说,它会寻找猎物。然后,可以识别目标动物;最后,它可以被抓住。

 

介绍。有几种方法【59】、【60】表明,令人满意的性能取决于重新优化策略(即从粗到细),该策略被视为多个子步骤的组合。这也表明,将复杂目标解耦可以打破性能瓶颈。我们的SINet模型包括狩猎的前两个阶段,即搜索和识别。具体而言,前一阶段(第4.2节)负责搜索隐藏对象,而后一阶段(第4.3节)则用于以级联方式精确检测隐藏对象。

 

接下来,我们详细介绍了三个主要模块的细节,包括

 

a)纹理增强模块(TEM),该模块用于捕获具有放大上下文线索的细粒度纹理;

 

b) 邻居连接解码器(NCD),能够提供位置信息;和

 

c)级联组反转注意(GRA)块,它们协同工作,从深层细化粗略预测。

 

4.2 搜索阶段

 

特征提取对于输入图像(WxHx3,三通道图像)一组特征 { f k , k ∈ { 1 , 2 , 3 , 4 , 5 } 是 从 R e s 2 N e t − 50 提 取 出 来 的 } \{f_k,k \in \{1,2,3,4,5\}是从Res2Net-50提取出来的\} { f k ​ , k ∈ { 1 , 2 , 3 , 4 , 5 } 是 从 R e s 2 N e t − 5 0 提 取 出 来 的 } (去掉了前三层,即“average pool”,“1000-d fc ”,“softmax”)。因此,每个特征 f k f_k f k ​ 的分辨率是 H / 2 k × W / 2 k , k ∈ { 1 , 2 , 3 , 4 , 5 } H/2^k \times W/2^k,k \in \{1,2,3,4,5\} H / 2 k × W / 2 k , k ∈ { 1 , 2 , 3 , 4 , 5 } ,覆盖从高分辨率、弱语义到低分辨率、强语义的各种特征金字塔

 

纹理增强模块(TEM)欧洲科学实验已经证实,在人类视觉系统中,一组不同大小的群体感受野有助于突出靠近视网膜中央凹的区域,该区域对小的空间位移非常敏感[62]。这促使我们在搜索阶段(通常在一个小的/局部空间中)使用TEM【63】来合并更多的区分性特征表示(discriminative feature representations)。如图13所示。

 

每个TEM由四个平行的残差分支(residual branches)组成 { b i , i = 1 , 2 , 3 , 4 } \{b_i,i=1,2,3,4\} { b i ​ , i = 1 , 2 , 3 , 4 } ,具有不同的膨胀率(dilation rates) d ∈ 1 , 3 , 5 , 7 d∈ {1,3,5,7} 1 , 3 , 5 , 7 和一个快捷分支(灰色箭头)。在每个分支 b i b_i b i ​ 中,第一卷积层利用1×1卷积运算(Conv1×1)将通道大小减少到32。

 

然后是其他两层: a ( 2 i − 1 ) × ( 2 i − 1 ) a(2i− 1) ×(2i− 1) a ( 2 i − 1 ) × ( 2 i − 1 ) 的卷积层和3×3卷积层(具有特定的膨胀率( 2 i − 1    w h e n   i > 1 2i-1 \ \ when \ i > 1 2 i − 1     w h e n   i > 1 )。然后,将前四个分支 b i , 1 , 2 , 3 , 4 {b_i,1,2,3,4} b i ​ , 1 , 2 , 3 , 4 串联起来,并通过3×3卷积运算将通道大小减小到C。注意,我们在网络的默认设置了C=32(为了权衡trade-off时间成本)。最后,添加唯一快捷分支,然后将整个模块馈送到 R e L U ReLU R e L U 函数,以获得输出特征 f k ′ f{_k}’ f k ​ ′ 。

 

此外,有几个工作(e.g Inception-V3[64])表明大小为 ( 2 i − 1 ) × ( 2 i − 1 ) (2i− 1) ×(2i− 1) ( 2 i − 1 ) × ( 2 i − 1 ) 的标准卷积操作能够被分解为两个步骤,卷积核分别为 ( 2 i − 1 ) × 1 (2i-1)\times 1 ( 2 i − 1 ) × 1 和 1 × ( 2 i − 1 ) 1 \times(2i-1) ( 2 i − 1 ) 的两步,在不降低表示能力的情况下,提高了推理效率。所有这些想法都基于这样一个事实,即等级为1的2维kernel等价于一系列一维卷积[65]、[66]。简言之,与标准感受野块结构相比,TEM增加了一个具有更大扩张率(dilation rate)的分支,以扩大感受野,并进一步用两个不对称卷积层取代标准卷积。更多详情请参考图13。

 

邻居连接解码器 (NCD).

 

正如Wu等人【63】所观察到的,低级别特征由于其较大的空间分辨率而消耗更多的计算资源,但对性能的贡献较小。基于这一观察结果,我们决定只聚合前三个最高级别的特征,以获得更有效的学习能力,而不是将所有特征金字塔都考虑在内。具体来说,在从之前三个TEM中获得候选特征后,在搜索阶段,我们需要定位隐藏的对象。

 

然而,在聚合多个特征金字塔时,仍然存在两个关键问题;即,如何在一个层内保持语义一致性,以及如何跨层连接上下文。在这里,我们提出使用邻居连接解码器(neighbor connection decoder ,NCD)来解决这些问题。更具体地说,我们使用邻居连接函数修改了部分解码器组件(PDC)[63],得到了三个细化的特征 f k n c = F N C ( f k ′ ; W N C u ) , k ∈ { 3 , 4 , 5 }   a n d    u ∈ { 1 , 2 , 3 } f_{k}^{nc}=F_{NC}(f_k’;W_{NC}^{u}),k \in \{3,4,5\} \ and \ \ u \in \{1,2,3\} F N C ​ ( f k ′ ​ ; W N C u ​ ) , k ∈ { 3 , 4 , 5 }   a n d     u ∈ { 1 , 2 , 3 } ,其公式如下:

 

 

其中 g [ ⋅ ; W N C u ] g[·;W_{NC}^{u}] g [ ⋅ ; W N C u ​ ] 表示一个3×3卷积层,然后是一个批量归一化操作。为了确保候选特征之间的形状匹配,我们使用上采样(例如,2次)操作 δ ↑ 2 \delta_{\uparrow}^{2} δ ↑ 2 ​ 在元素相乘之前 ⨂ \bigotimes ⨂ ,然后我们将 f k n c , k ∈ { 3 , 4 , 5 } f_{k}^{nc},k \in \{3,4,5\} f k n c ​ , k ∈ { 3 , 4 , 5 } 喂进邻居连接解码器 (NCD)生成粗略位置图 C 6 C_6 C 6 ​ 。

 

4.3识别阶段

 

反向制导Reverse Guidance如第4.2节所述,我们的全局位置图 C 6 C_6 C 6 ​ 源自三个最高层,这只能捕获隐藏对象的相对粗略位置,忽略结构和纹理细节(见图13)。为了解决这个问题,我们引入了一种原则性策略,通过擦除对象(erasing objects )来挖掘有区别的隐藏区域[7]、[67]、[68]。如图14(b)所示,我们通过sigmoid和反向操作获得输出反向制导 r 1 k r^k_1 r 1 k ​ 。更准确地说,我们通过反向操作获得输出反向注意引导 r 1 k r^k_1 r 1 k ​ ,其可表示为

 

 

δ ↑ 2 \delta_{\uparrow}^{2} δ ↑ 2 ​ 表示一个x2的上采样,同理,x4的下采样。 σ ( x ) = 1 / ( 1 + e − x ) \sigma (x)= 1/ (1+e^{-x}) σ ( x ) = 1 / ( 1 + e − x ) 是sigmoid函数,用于将掩码转换到区间[0,1]。圆圈中间一个减号,这个符号代表一个从矩阵E中减去输入的反向运算,其中所有元素均为1。

 

组引导操作Group Guidance Operation (GGO)如[7]所示,反向注意通过从侧输出特征中删除现有的估计目标区域,用于挖掘互补区域和细节。受[69]的启发,我们提出了一种新的分组操作,以更有效地利用反向制导先验。如图14(a )所示,组引导操作包含两个主要步骤。首先,我们将候选特征   { p i k , i = 1 , 2 , 3   } \ \{p^k_i,i=1,2,3\ \}   { p i k ​ , i = 1 , 2 , 3   } 沿通道维度拆分为 g i g_i g i ​ 组,然后,在分割特征 p i , j k ∈ R H / 2 k × C p^k_{i,j} \in R^{H/2^k\times C} p i , j k ​ ∈ R H / 2 k × C 之间周期性地内插引导先验 r 1 k r^k_1 r 1 k ​ ,其中 i ∈ { 1 , 2 , 3 } , j ∈ { 1 , … , g i } , k ∈ { 3 , 4 , 5 } . i∈ \{1,2,3\},j∈ \{1,…,g_i\},k∈ \{3,4,5\}. { 1 , 2 , 3 } , j ∈ { 1 , … , g i ​ } , k ∈ { 3 , 4 , 5 } . 因此,此操作可分为两个步骤:

 

 

其中, F S F^S F S 和 F C F^C F C 表示候选通道的按通道拆分和级联函数。

 

 

相比之下,[7]更强调确保候选特征直接乘以先验值,这可能会引发两个问题:a)由于网络的辨别能力有限而导致特征混淆,以及b)简单的乘法引入了真制导先验值和假制导先验值,因此容易积累不准确度。与[7]相比,我们的GGO可以在后续的细化过程之前明确地隔离指导优先和候选特征。

 

Group-Reversal Attention组反转注意力 (GRA).最后,我们介绍了一种称为GRA块的残差学习过程,该过程借助于反向引导和组引导操作。根据之前的研究【59】、【60】,多级细化可以提高性能。因此,我们组合了多个GRA块

 

(e.g, G i k 、 i ∈ { 1 , 2 , 3 } , k ∈ { 3 , 4 , 5 } G^k_i、i∈ \{1,2,3\},k∈ \{3,4,5\} G i k ​ 、 i ∈ { 1 , 2 , 3 } , k ∈ { 3 , 4 , 5 } ),通过不同的特征金字塔逐步细化粗预测。总的来说,每个GRA模块有三个残差学习过程:

 

i) 我们通过group guidance operation将候选特征 p i k p^k_i p i k ​ 和 r 1 k r^k_1 r 1 k ​ 相结合,然后使用剩余阶段(residual stage)生成细化特征 p i + 1 k p^k_{i+1} p i + 1 k ​ 。其公式如下

 

 

其中, W v W^v W v 表示卷积层,该卷积层具有 3 × 3 3×3 3 内核,然后是批量归一化(batch normalization )层,用于将通道数从 C + g i C+g_i g i ​ 减少到 C C C 。请注意,在默认实现中,我们仅在第一个GRA块中(即,当i=1时)反转之前的guidance。有关详细讨论,请参阅第5.3节。

 

ii) 然后,我们得到单通道剩余制导(residual guidance):

 

 

由可学习权重 W G R A w W^w_{GRA} W G R A w ​ 参数化。

 

iii) 最后,我们只输出精制导,作为残差预测。其公式如下:

 

 

4.4 实现细节

 

4.4.1 学习策略

 

我们的loss函数定义为: L = L I o U W + L B C E W L = L^W_{IoU}+L^W_{BCE} L I o U W ​ + L B C E W ​ ,其中, L I o U W L^W_{IoU} L I o U W ​ 和 L B C E W L^W_{BCE} L B C E W ​ 表示全局限制和局部(像素级)限制的联合(IoU)损失和二进制交叉熵(BCE)损失的加权交集。与分割任务中广泛采用的标准IoU损失不同,加权IoU损失增加了硬像素(hard pixels)的权重以突出其重要性。此外,与标准BCE损耗相比, L B C E W L^W_{BCE} L B C E W ​ 更关注硬像素,而不是赋予所有像素相等的权重。这些损失的定义与【59】、【70】中的定义相同,其有效性已在显着目标检测领域得到验证。在这里,我们对三方输出(即 C 3 C_3 C 3 ​ 、 C 4 C_4 C 4 ​ 和 C 5 C_5 C 5 ​ )和全局映射 C 6 C_6 C 6 ​ 采用深度监控。将每个地图上采样(例如, C 3 u p C^{up}_3 C 3 u p ​ )至与ground-truth map G相同的大小。因此,拟定SINet的总损失可表示为:

 

 

4.4.2 超参数设置

 

SINet在PyTorch中实现,并使用Adam optimizer进行训练【71】。在训练阶段,batch size设置为36,学习速率从 1 e − 4 1e-4 1 e − 4 开始,每50个epoch除以10。整个训练时间只有大约4小时,共100个epoch。运行时间在Intelr i9-9820X [email protected]×20平台和单个NVIDIA TITAN RTX GPU上测量。在推理过程中,每个图像的大小被调整为352×352,然后输入到建议的管道中,以获得最终预测,而无需任何后处理技术。推理速度为在单个GPU上每秒~45帧,无需输入/输出时间。PyTorch和Jittor对源代码的验证都将公开提供。

 

5 COD BENCHMARK

 

5.1 实验设置

 

5.1.1 评估指标

 

平均绝对误差(MAE)广泛应用于SOD任务中。继Perazzi等人【83】之后,我们还采用MAE(M)度量来评估predicted map和ground-truth之间的像素级精度。然而,虽然MAE指标有助于评估错误的存在和数量,但无法确定错误发生的位置。最近,Fan等人提出了一种基于人类视觉感知的E-measure( E φ E_φ E φ ​ )[74],它同时评估像素级匹配(pixel-level matching )和图像级统计(image-level statistics)。该指标自然适用于评估隐蔽目标检测结果的整体和局部精度。注意,我们在实验中报告了平均 E φ E_φ E φ ​ 。由于隐藏对象通常包含复杂的形状,COD还需要一个能够判断结构相似性的度量。因此,我们利用S-measure( S α S_α S α ​ )[84]作为我们的结构相似性评估指标。

 

最后,最近的研究[74]、[84]表明,加权F-measure( F β w F^w_β F β w ​ )[85]可以提供比传统 F β F_β F β ​ 更可靠的评估结果。因此,我们进一步考虑将其作为COD的替代指标。我们的一个关键评估代码也可以在项目页面上找到。

 

5.1.2 Baseline Models 基础模型

 

我们根据以下标准选择了12条深度学习baselines【7】、【12】、【25】、【63】、【75】、【76】、【77】、【78】、【79】、【80】、【81】、【82】:

 

a)经典架构,b)最近发布,c)在特定领域实现SOTA性能

 

5.1.3 Training/Testing Protocols

 

为了与之前的版本【1】进行公平比较,我们对baselines采用了相同的训练设置【1】。我们在整个变色龙数据集以及CAMO和COD10K测试集上评估了模型。

 

5.2 结果和数据分析

 

本节分别提供了变色龙、迷彩和COD1K数据集的定量评估结果。

 

(这块有兴趣去看原论文吧)

 

5.3 消融实验

 

现在,我们详细分析了变色龙、迷彩和COD10K上的拟议SINet。我们通过解耦各种子组件(包括NCD、TEM和GRA)来验证有效性,如表6所示。注意,在每个消融变体的再培训过程中,我们保持第4.4节中提到的相同超参数。

 

6 下游应用

 

伪装目标检测系统在医学、艺术和农业等领域有着广泛的下游应用。在这里,由于这些应用程序的共同特性,我们设想了一些潜在的用途,其中目标对象与背景具有相似的外观。在这种情况下,COD模型非常适合作为这些应用程序的核心组件来挖掘伪装对象。请注意,这些应用程序只是激发未来研究有趣想法的玩具示例。

 

6.1 应用一:医药

 

6.1.1 息肉分割

 

众所周知,通过医学影像进行早期诊断在疾病治疗中起着关键作用。然而,早期疾病区域/病变通常与周围组织具有高度的同质性。因此,医生很难在早期从医学图像中识别病变区域。一个典型的例子是对息肉进行早期结肠镜检查,这有助于降低大约30%的结直肠癌发病率[7]。与隐蔽目标检测类似,息肉分割(见图18)也面临一些挑战,例如外观变化和边界模糊。最近最先进的息肉分割模型PraNet【7】在息肉分割(Top1)和隐藏对象分割(TOP2)方面都显示出了良好的性能。从这个角度来看,将我们的SINet嵌入到这个应用程序中可能会获得更健壮的结果。

 

 

6.1.2 肺部感染细分

 

另一个隐藏对象检测示例是医学领域中的肺部感染分割任务。最近,2019冠状病毒疾病引起了特别关注,并导致了全球大流行。配备2019冠状病毒疾病肺部感染分割模型的AI系统将有助于2019冠状病毒疾病的早期筛查。有关此应用程序的更多详细信息,请参见最近的细分模型[8]和调查论文[92]。我们相信,使用2019冠状病毒疾病肺部感染分割数据集保留我们的SINet模型将是另一个有趣的潜在应用。

 

 

6.2 应用二:制造

 

6.2.1 表面缺陷检测

 

在工业制造业中,质量差的产品(如木材、纺织品和磁砖)将不可避免地对经济产生不利影响。从图20可以看出,表面缺陷具有挑战性,不同的因素包括低对比度、模糊边界等。由于传统的表面缺陷检测系统主要依赖于人,主要问题的识别非常主观且耗时。因此,设计一个基于人工智能的自动识别系统对于提高生产率至关重要。我们正在积极构建这样一个数据集,以推进相关研究。一些相关论文可在以下网址找到: https://github.com/Charmve/Surface-Defect-Detection/tree/master/Papers.

 

6.3 应用三:农业

 

6.3.1 害虫检测

 

自2020年初以来,从非洲到南亚,沙漠蝗灾席卷全球。大量蝗虫啃食农田,彻底摧毁农产品,造成严重的经济损失和粮食短缺造成的饥荒。如图21所示,引入基于AI的技术以提供科学监测,对于实现政府的可持续监管/遏制是可行的。为COD模型收集相关昆虫数据需要丰富的生物学知识,这也是该应用中面临的一个难题。

 

6.3.2 水果成熟度检测

 

在成熟的早期阶段,许多水果看起来像绿叶,这使得农民很难监控产量。我们在图22中展示了两种水果,即英仙花和杨梅。这些水果与隐蔽物体具有相似的特征,因此可以利用COD算法对其进行识别,提高监测效率

 

 

6.4 应用四:艺术

 

6.4.1 娱乐艺术

 

背景扭曲到隐藏的显着对象是SIGGRAPH社区中一项迷人的技术。图23显示了Chu等人在【9】中生成的一些示例。我们认为,这种技术将为现有的数据饥渴的深度学习模型提供更多的训练数据,因此,探索Treisman和Wolfe[93]、[94]所描述的特征搜索和连接搜索理论背后的潜在机制是有价值的。

 

6.4.2从隐蔽到突出的物体

 

隐蔽目标检测和显着目标检测是两个对立的任务,这使得我们可以方便地设计一个多任务学习框架,同时提高网络的鲁棒性。如图24所示,存在两个反向对象(a)和(c)。一个有趣的应用程序是提供一个滚动条,允许用户自定义隐藏对象中突出对象的程度。

 

 

6.5 应用五:日常生活

 

6.5.1透明材料/物体检测

 

透明物体,如玻璃制品,在我们的日常生活中很常见。如图25所示,包括门和墙在内的这些对象/事物继承了其背景的外观,使其不可见。作为隐蔽目标检测的一个子任务,透明目标检测[47]和透明目标跟踪[95]已显示出良好的前景。

 

6.5.2搜索引擎

 

图26显示了来自Google的搜索结果的示例。从结果中(图26 a),我们注意到搜索引擎无法检测到隐藏的蝴蝶,因此只提供具有类似背景的图像。有趣的是,当搜索引擎配备隐蔽检测系统时(这里,我们只需更改关键字),它可以识别隐藏的对象,然后反馈几个蝴蝶图像(图26 b)

 

 

7 潜在研究方向

 

(1) 弱\半监督检测:Weakly/Semi-Supervised Detection:

 

(2) 自我监督检测:Self-Supervised Detection:

 

(3) 其他方式的隐蔽物体检测:Concealed Object Detection in Other Modalities:

 

(4) 隐蔽物分类:Concealed Object Classification:

 

(5) 隐蔽物建议和跟踪:Concealed Object Proposal and Tracking:

 

(6) 隐蔽物等级:Concealed Object Ranking:

 

(7) 隐藏实例分段:Concealed Instance Segmentation:

 

(8) 多任务通用网络:Universal Network for Multiple Tasks:

 

(9) 神经架构搜索:Neural Architecture Search

 

(10) 将突出对象转换为隐藏对象: Transferring Salient Objects to Concealed Objects:

 

我们首次从隐蔽视觉角度对目标检测进行了全面研究。具体而言,我们提供了新的具有挑战性且注释密集的COD10K数据集,进行了大规模基准测试,开发了一个简单但高效的端到端搜索和识别框架(即SINet),并重点介绍了几个潜在的应用。与现有的前沿基线相比,我们的SINet具有竞争力,并产生了更有利的视觉效果。上述贡献为社区提供了为COD任务设计新模型的机会。未来,我们计划扩展COD1K数据集,以提供各种形式的输入,例如多视图图像(例如RGB-D SOD[107]、[108])、文本描述、视频(例如VSOD[103]),等等。我们还计划自动搜索最佳感受野[109],并采用改进的特征表示[110],以获得更好的模型性能。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。