Press "Enter" to skip to content

空间-角度信息交互用于光场图像超分辨重构,性能达到最新SOTA | ECCV 2020

 

作者 | Yingqian Wang, Longguang Wang等

 

译者 | 刘畅

 

出品 | AI科技大本营(ID:rgznai100)

 

光场(LF)相机不仅会记录光线的强度,也会记录光线的方向,并且会从多个视点捕获场景。而每个视点内的信息(即空间信息)以及不同视点之间的信息(即角度信息)都有利于图像超分辨率(SR)。

 

在本文中,作者提出了一种用于LF图像SR的空间角度交互网络(即LF-InterNet)。在本方法中,作者使用两个专门设计的卷积分别从输入的光场图中提取空间和角度特征。然后,将这些提取的特征重复地交互以合并空间和角度信息。最后,将交互的空间和角度特征融合在一起,去超分辨每个子孔径的图像。

 

作者在6个公共的LF测试数据集上做了实验,证明了本文方法的优越性。与现有的LF图像和单张图像超分辨方法相比,本文的方法可以恢复更多的细节,并且在PSNR和SSIM两个指标上比现有技术有显着提升。

 

论文链接:https://arxiv.org/abs/1912.07849

 

代码地址:https://github.com/YingqianWang/LF-InterNet

 

引言

 

光场相机可以提供场景的多个视图,因此可在许多方面都有应用,例如深度估计,显着性检测、去遮挡等。然而,LF相机面临着空间分辨率和角度分辨率之间的权衡。也就是说,它要幺可以提供低图像分辨率的密集角度采样,要幺提供高分辨图像的稀疏角度采样。因此,研究者们已经做了许多努力,通过LF重构来提升角度分辨率,或者通过LF图像超分辨率(SR)来提升空间分辨率。在本文中,作者主要关注LF图像的SR问题,即从其相应的低分辨率(LR)子孔径图像(sub-aperture image, SAI)重建高分辨率(HR)的 SAI。

 

图像超分辨重构是计算机视觉中一个长期存在的问题。为了获得较高的重建效果,SR方法需要从LR输入中吸收尽可能多的有用信息。在单张图像SR领域,可以通过充分利用图像中的邻域上下文(即空间信息)来取得较好的效果。相比之下,LF相机可从多个视图捕获场景。而不同视图之间的角度信息,则可以用于进一步提升LF图像的SR效果。

 

但是,由于LF复杂的4D结构,在LF中合并空间和角度信息是非常有挑战性的。现有的LF图像超分辨方法无法充分利用角度信息和空间信息,从而导致SR性能有限。具体地,有研究人员使用单个图像SR方法分别对SAI进行超分辨,然后将其微调在一起以合并角度信息。也有研究者仅使用部分SAI来超分辨一个视图,并且未合并另外废弃视图中的角度信息。

 

相反,有另外的研究人员提出了一种基于图的方法来考虑优化过程中的所有角度视图。但是,该方法无法充分利用空间信息,并且不如基于深度学习的SR方法。值得注意的是,即使所有视图都被送到一个深层神经网络,要实现卓越的性能仍然十分具有挑战。

 

由于空间信息和角度信息在LF图像中高度耦合,并采用不同的方式对LF图像超分辨做出贡献。因此,网络难以直接使用这些耦合信息。为了有效地合并空间和角度信息,本文提出了用于LF图像超分辨的空间角度信息交互网络(即LF-InterNet)。

 

首先,作者专门设计了两个卷积,以将空间和角度特征与输入的LF分离。然后,作者提出了LF-InterNet以重复交互并合并空间和角度信息。最后,作者做了多个消融实验验证了本文的设计。并将本文方法与最新的单一图像和LF图像SR方法,在6个公开LF数据集上进行了比较。结果显示,本文的LF-InterNet显着提升了PSNR和SSIM性能。

 

方法

 

空间-角度特征解耦

 

光场图像按照上图左边的方式进行排列可以组成阵列的SAI,将每幅阵列SAI相同空间位置的像素按照视角顺序进行排列,则可以构成宏像素的图像(macro-pixel image,MacPI)。本文所提出的空间信息特征提取(SFE)与角度信息特征提取(AFE)均以MacPI作为输入,如下图所示。

 

 

作者对光场宏像素图进行了简化示例,其中光场的空间分辨率与角度分辨率均为3*3。图中涂有不同底色的3*3区域表示不同的宏像素,每个宏像素内的3*3标有不同的符号(十字、箭头等),表示其属于不同的视角。然后作者分别对两种特征提取器进行了定义。AFE是kernel size=A*A,stride=A的卷积;SFE是kernel size=3*3,stride=1,dilation=A的卷积。注意,将AFE应用于MacPI时,只有单个MacPI内的像素参与卷积运算,而不同像素之间信息不互通。同理,将SFE应用于MacPI时,只有属于相同视角的像素参与卷积运算,而属于不同视角的像素不互通。因此,AFE和SFE可以分别提取光场的角度信息和空间信息,实现信息的解耦。

 

 

网络设计

 

 

上图是作者构建的LF-InterNet网络,该网络主要分为三个部分,特征提取、空间角度特征交互、特征融合重构。

 

特征提取 :将上述的AFE与SFE两种特征提取器应用于输入的光场MacPI时,可以分别提取光场的角度特征与空间特征。

 

空间角度特征交互 :用于实现空间角度特征交互的基本单元为交互块(Inter-Block)。该文将4个交互块级联构成了一个交互组(Inter-Group),再将4个交互组级联构成网络的交互部分。如图4(b)所示,在每个交互块中,输入的空间特征与角度特征进行一次信息交互。交互上是相互的,一方面角度特征上采样A倍后与空间特征进行级联,而后通过一个SFE与ReLU实现角度信息引导的空间特征融合;另一方面,空间特征通过AFE卷积提取新一轮的角度特征,并与输入的角度特征进行级联,而后通过一个1*1卷积与ReLU进行角度特征的更新。空间特征分支与角度特征分支均采用局部残差连接。

 

特征融合构建 :网络的每个交互组输出的空间特征与角度特征分别进行级联,而后通过bottleneck模块进行全局特征融合。如图4(c)所示,在bottleneck模块中,角度特征首先通过1*1卷积与ReLU进行通道压缩,而后通过上采样与空间特征进行级联。融合得到的特征通过SFE进行通道扩增,而后通过光场结构reshape为阵列的SAI形式,最后通过pixel-shuffle层与1*1卷积层输出高分辨率光场SAI。

 

 

实验

 

作者首先介绍了数据集和实现的细节,然后进行了消融实验。最后,将LF-InterNet与最新的LF图像SR和单图像SR方法进行比较。

 

数据集和细节

 

该文采用下表所示的6个公开数据集进行训练与测试。训练时,会把每张SAI分割成64*64的大小,生成一个LR patches。网络训练采用L1 loss,数据增强采用了翻转和旋转。评价指标采用PSNR和SSIM。算法是使用pyTorch实现,已开源。针对2倍和4倍的超分辨,输入光场的角度分辨率为5*5,LF-InterNet的通道数设为64。

 

 

消融实验

 

空间信息和角度信息

 

 

通过表格2可以看出,空间信息和角度信息对于超分辨的提升均有帮助。且不能仅单独使用角度信息,空间信息对于超分辨性能的提升更有益。而本文提出的SFE和AFE对于信息的解耦可以进一步提升SR性能。

 

特征交互组的数量

 

 

可以看出,如果没有特征交互,效果较差。而随着特征交互组数量的增多,效果变得越来越好。

 

角度-空间上采样方式 & 角度分辨率

 

 

表格4可以看出,nearest、bilinear相较于pixel shuffling的采样方式,均不够好。表格5可以看出,2倍和4倍的超分辨重构效果均随着角度分辨率的增加而提升。

 

算法对比

 

本文在6个公开数据集上将LF-InterNet与单图超分辨算法VDSR、EDSR、RCAN、SAN、SRGAN、ESRGAN以及光场图像超分辨算法LFBM5D,GB,LFSSR,resLF,以及LF-ATO进行了比较,结果如下表格所示,本文算法是目前的SOTA。

 

 

视觉上的效果以及性能对比

 

通过视觉上的对比,本文算法可以更好的保持纹理和细节信息。且从模型参数量和FLOPs数上,性能是明显优于LF-ATO算法。

 

 

 

结论

 

本文提出了空间-角度信息交互的光场图像超分辨网络(LF-InterNet),首先设计了空间特征提取器与角度特征提取器分别提取光场图像的空间与角度特征,而后构建LF-InterNet对两类特征进行渐进式交互融合。实验验证了该文算法的有效性,达到了目前的SOTA。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注