Press "Enter" to skip to content

ECCV 2020论文Domain-invariant 立体视觉匹配网络介绍

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

介绍ECCV 2020 一篇oral paper, “Domain-invariant Stereo Matching Networks“,作者来自牛津大学、百度和另外两所香港大学。

 

注:作者提供了开源代码。

由于domain differences(例如颜色、照明、对比度和纹理),最新的立体匹配网络难以扩展到没见过的环境。 本文设计可以很好地推广到新场景的一种域不变立体匹配网络(domain-invariant stereo matching network,DSMNet)。 为此文章提出:i)一种“域规范化(domain normalization,DN)”方法,规范学习表征的分布,使其对域差异保持不变性;ii)一种端到端可训练的结构保持图滤波器 (structure-preserving graph-based filter ,SGF)用于提取可增强域不变泛化能力的鲁棒结构和几何表征。 实验结果显示,性能优于MC-CNN【61】和DispNet【32】。该方法可推广到光流计算,提高如FlowNew2 【17】和PwcNet 【48】模型的泛化能力。

 

首先,domain differences大致分为几种:1)image-level styles(颜色、灰度);2)local variations(对比度);3)texture patterns, details and noise conditions;4)其他。为此定义公式近似表示为

提出的domain normalization (DN)可以克服1)和2)域差异问题,而SGF滤波器可以减少3)问题,并对4)具有鲁棒性。

 

如图是对DN的示意图,和BN和Instance Norm比较:

其中每个子图展示feature map tensor, N-batch axis, C-channel axis, (H, W) -spatial axes。蓝色部分是以同样均值方差进行规范化。提出的domain normalization 包括image-level normalization (蓝色部分)和 pixel-level normalization (绿色部分)。

 

BN公式如下:

IN是域不变的,但是如下图所示:不同数据集(从左到右为合成SceneFlow、KITTI、Middlebury、CityScapes和ETH 3D)的特征向量规范化比较,IN只能减少图像级差异,而不能规范化像素级特征向量。

DN定义为

DN是在BN基础上的进一步规范化,就是说,不仅在空间维同时在通道维进行。加入scale γ 和shift β,最终DN公式是:

关于SGF滤波器,首先如下图所示,把一个图像8-邻域图分解成两个有向图。

那幺定义SGF按照图理论(边缘和节点)进行

其中节点是特征向量,而边缘权值定义为:

最后简化为

进一步变成一个迭代线性实现:

文中提到最近的一些方法semiglobal aggregation (SGA) 层 【63】 和 affinity-based propagation 方法 【30】可以说是SGF的特例。

 

另外,SGF 采用feature affinity 和spatial proximity 做non-local graph-based filtering(NLF)。

 

如图是系统网络架构图:

合成数据做训练,新域数据(如Kitti真实数据)做测试。GANet的主干网做基准,DN在特征提取和guidance network中使用,而在特征提取和cost aggregation均采用多层 SGF。

 

看一些实际实验的直观例子:

还有一些数据表格比较:

如果解决这种域转换问题,对模型泛化能力是很大的提高。

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注