Press "Enter" to skip to content

指哪分哪:交互式分割近期发展

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

©PaperWeekly 原创 · 作者|武广

 

学校|合肥工业大学硕士生

 

研究方向|图像生成

 

图像分割在深度学习的加持下精度性得到不断的提高,主要的分割任务集中在全自动分割的方法下进行,然而一些特定的任务往往是自动分割方法无法实现的。 例如仅对感兴趣的目标进行分割,在自动分割结果不够好的情况下通过用户介入矫正,特定医疗图像的目标分割等。

 

此时,交互式分割则发挥着重要的作用,它可以在自动分割不充分的情况下通过用户提供前景和背景的标记实现更加精细和特定位置的目标分割。 本文将对交互式分割近年的发展进行梳理和介绍。

 

 

交互式分割简介

 

交互式分割是用户通过提供目标物体前景和背景信息实现交互式的监督分割。交互式分割往往是建立在自动分割的基础上,对已有的监督信息中增加人为(模拟人为)的标记,实现更加精细的分割。图 1 展示了通过指定前景和背景点实现的交互式分割。其中绿色点为前景标记点,红色点为背景标记点。

 

 

▲图1.前景背景点下的交互式分割

 

交互式分割作为图像分割的一个重要分支也经历了一定的发展。早期的分割和交互式分割是基于高斯混合模型和马尔科夫随机场实现。

 

通过基于马尔科夫随机场模型的图像分割算法假设待分割图像的像素只与其邻域内的像素相关,与邻域外的像素无关;基于该假设我们能定量计算图像局部的先验结构信息,并根据最大后验概率准则(MAP),有效的利用像素间结构信息分割图像。

 

依靠能量最小化的分割是定义一个能量函数E,其最小值对应理想的分割。由于前景和背景灰度水平直方图和不透明度是连贯的,并能反映物体实体化的倾向。这样获得一个“吉布斯(Gibbs)”能量的形式。

 

随着深度学习的发展,以 GrabCut 算法 [1] 为主,利用图像中的纹理(颜色)信息和边界(反差)信息,只要少量的用户交互(提供前景标记框)操作即可得到比较好的分割结果。

 

我们知道,近年来的神经网络朝着更大更深的方向发展,图像分割的精度和细节愈发的逼近真实分割结果,本文将通过近年典型的几篇交互式分割文章对该方法进行一定梳理和分析。

 

 

交互式分割近年典型方法

 

2.1 F-BRS

 

f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation [2] 是 CVPR 2020 的文章,文章提出了一种新颖的反向传播优化方案(f-BRS),该方案可在网络的中间特征上运行,并且只需要对网络的一小部分进行正向和反向传递。实验结果在准确性和速度方面设定了最高的结果。

 

f-BRS 的优化过程可以通过以下 demo 进行演示。

 

 

可以看到,f-BRS 可以在得到交互式前景和背景的点击下,在进行传播的过程中,不仅可以从输入进行反向传递也可以从相应的特征提取的模块节点下进行反向传播优化网络,这将在推理上可以实现大幅度的速度提升,值得说的是后端优化的节点并没有带来多大分割精度上的损失。

 

我们看一下模型的实现细节,整个模型结构如图 2 所示。

 

 

▲图2.f-BRS模型结构

 

模型的输入为原图 image 和已经处理好的前景背景的点。如何处理好这些前景和背景的点呢,这就需要通过一个 Distance Maps 去实现,也就是图上画出来的。

 

说的通俗一点,这个 Distance 就是怎样确定前景点和对应的 mask 上的区域,源码下采用 num_max 作为前景点的最多个数,默认是 10 个。也就是最多在一个区域标记 10 个前景点和 10 个背景点,通过将这些点进行距离映射处理后得到与图像尺寸相当的 channel 为 2 的距离图。

 

得到 Distance Maps 后,我们的输入就是对应的 Image 的,有人可能又要质疑了,你是怎幺确定前景点和背景点的呢?处理前景点和背景点的任务其实是要人通过交互的输入进行的。怎幺去程序化呢?也就是让电脑模拟人的输入进行交互呢?

 

这其实很简单的,就是通过已有的真实图像的 Mask 去确定,Mask 在目标物体位置区域内是 1,否则全为 0。随机选择 1 的位置作为前景点,0 的位置作为背景点,允许重复的情况下选择 10 个前景点和 10 个背景点(坐标(-1,-1) 的情况下表示放弃标点)。

 

文章在对数据进行增强的时候,利用了 Python 下的 albumentations 包,这是个专门实现数据增强的模块,其中包括 Compose, ShiftScaleRotate, PadIfNeeded, RandomCrop, RGBShift, RandomBrightnessContrast, RandomRotate90, Flip。

 

对于后续的网络架构,我们以 ResNet34 为例,对网络进行了详细展开,得到的结果如图 3 所示,对模型中的 BatchSize 进行省略,输入的图像尺寸为。

 

 

▲ 图3.f-BRS基于ResNet34实现细节

 

中间的特征节点  f-BRS-A 、 f-BRS-B  和  f-BRS-C  在图 3 中进行了标注,在进行部分反向传播的时候,也是以这几个节点为基础进行操作。模型采用了较为成熟的 Skip project 和 ASPP 方法,这里还要再强调一下文章提出的  zoom i n 方式,使用的 zoom in 分为 5 个阶段。

 

 

阶段一是确定目标下的边界框

 

 

 

 

适度小的扩展找到的边界框

 

 

 

 

通过得到的边界框对图像进行剪裁

 

 

 

 

上采样得到的中心区域

 

 

 

 

再次预测边界

 

 

 

Zoom in 方式的采用可以在不添加任何互动点击的情况下得到更好的结果。同时 zoom in 的使用将之前已有的交互式分割方法也可以得到较好的提升,这种方式还是很值得借鉴的。

 

 

f-BRS 在 GrabCut、Berkeley、SBD 和 DAVIS 数据集上均取得了优异的结果。

 

 

▲ 图4.f-BRS各数据集下实验结果

 

2.2 Uncertainty-Guided

 

Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices [3] 是 MICCAI 2020(医学图像领域的顶会)一项工作,这是一篇典型的在自动分割的基础上施加交互式分割的文章,我们先从整体的逻辑实施切入分析。

 

 

▲ 图5.Uncertainty-Guided交互式分割流程

 

输入的一张图像通过自动分割得到初始的分割结果和一张 不确定分割 结果,所谓的不确定分割图,就是网络对某些部位是前景还是背景的怀疑程度,文章得到 N 个不确定分割图,这 N 个不确定分割图通过怀疑概率从高到低进行排列,由人为进行交互修正。

 

当用户连续对 3 张不确定图作出不需要修正的决定后便提前终止交互,输出细化后的分割结果。在模型的网络结构上采用基于分组卷积的 MG-Net。

 

 

▲ 图6.Uncertainty-Guided模型结构

 

该模型实现了同时获得多个分段预测和实时不确定性估计,在进行不确定分割结果的交互上通过从高到低的检测方式,避免了对分割良好的结果进行不必要的手动检查。可以这样说,只要自动分割得到的初始化分割结果够好,根本不用后续的不确定分割的参与,直接输出。

 

正是不确定分割的引入,对网络和细分割上进行了要求上的调整,只有满足一定的人为修正次数或者人为认定不需要进行修正时,才能作为最后的结果输出。这种设计正是交互式分割在处理细化分割上最应该实现的方式。

 

将 Uncertainty-Guided 应用在不同模型下的定量结果如下。

 

 

2.3 Refinement Network

 

Interactive Deep Refinement Network for Medical Image Segmentation [4] 提出了 RefineNet,这是一种用于医学图像分割的交互式深度优化网络。主要目的是完善自动分割网络产生的分割结果。

 

网络由两部分组成,第一部分是产生初始分割的分割主干;第二部分是优化网络,该网络结合了多尺度初始细分的功能和用户的种子点。网络可以在训练阶段自行生成种子点,并且仅在测试阶段需要用户的种子点。

 

这种方式不同于 Uncertainty-Guided 的不确定性分割,而是通过多尺度细分去实现交互式分割,模型结构框架如图 7 所示。

 

 

▲ 图7.Refinement Network模型结构

 

左半部分就是典型的 U-Net 网络,文章的创新之处都在右半部分,由 U-Net 在不同尺度下得到各尺度下分割图像。在不同尺度下反馈到交互指导图(种子图像),种子图就是我们说的用户的输入的指示图,也就是上图中的右下角的图像。

 

这个种子图的获取上,在训练和测试阶段是分开的,在训练阶段种子图的获取的方式是通过 GT(Ground Truth)和初始的分割图进行相减,用图 8 进行解释。

 

 

▲ 图8.前景点和背景点的确定

 

将两个图像相减会生成相减掩码,由于都是二值图像,指示每个像素为 -1、0 或 +1,得到的结果为 +1 遮罩称为过分分割遮罩(此时判定为过分分割),而 -1 遮罩被视为分割不足遮罩(此时判定为分割不足)。

 

这反映在种子图上就是用红色标记背景,用蓝色标记前景,回归到结构框架上,种子图通过 resize 指导不同尺度下的图像进行修正。

 

 

在测试阶段,一般交互式分割方法的主要缺点是用户不知道困难区域,该区域主要是分割不足或分割过度,直到获得初始分割结果为止。

 

初始分割是从第一个网络生成的;通过初始分段,用户可以观察初始分割结果,对过度分割和分割不足的区域,并将它们用作输入准则。与训练阶段的种子点不同,自动生成的种子点需要真实分割图像,而人工种子点是从用户输入的。

 

Refinement Network 在分割实验上取得了不错的结果。

 

 

 

总结

 

本文就近年交互式分割下典型的三种模型进行介绍,以单纯交互式分割 F-BRS、通过对自动分割后的不确定性的 Uncertainty-Guided 进行细致分割,以多尺度交互式细分分割的 Refinement Network。

 

F-BRS 反向传播优化方案将大幅度提升分割速度,只需要对网络的一小部分进行正向和反向传递。Uncertainty-Guided 设计的不确定分割图是交互式分割的发展方向,也是一条很值得学习的方式,这种分组卷积的成功为以后设计的交互式分割提供了参考。

 

Refinement Network 通过 GT 与预测之间的相减确定是否过度分割或者分割不足的情况可以适用于很多的分割上,这种自动化的方式可以适用在背景和前景的交互指导上,可以对分割结果进行进一步的结果修正。

 

同时在各个尺度下的指导修正也是一个很值得利用的点,当获得种子图,可以通过 resize(此时的 resize 操作只是在标记点的映射,不影响种子点)进行不同尺度的调整。

 

大尺度可以 resize 到小尺度,小尺度的种子图完全可以 resize 到大尺度,这个种子图不受尺寸影响,得到的种子图指导大尺度的话,可以得到更加合理的分割图像。小尺度的连续,可以指导大尺度下的不连续,这种方式可以做一定程度的适用和改进。

 

参考文献

 

 

[1] Rother C, Kolmogorov V, Blake A. ” GrabCut” interactive foreground extraction using iterated graph cuts[J]. ACM transactions on graphics (TOG), 2004, 23(3): 309-314.

 

[2] Sofiiuk K, Petrov I, Barinova O, et al. f-BRS: Rethinking Backpropagating Refinement for Interactive Segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 8623-8632.

 

[3] Wang G, Aertsen M, Deprest J, et al. Uncertainty-Guided Efficient Interactive Refinement of Fetal Brain Segmentation from Stacks of MRI Slices[J]. arXiv preprint arXiv:2007.00833, 2020.

 

[4] Kitrungrotsakul T, Yutaro I, Lin L, et al. Interactive Deep Refinement Network for Medical Image Segmentation[J]. arXiv preprint arXiv:2006.15320, 2020.

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注