Press "Enter" to skip to content

TIP2021 _ 视频超分辨率中的多级特征融合网络

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

作者 | Salted Fish

 

编辑 | CV君

 

报道 | 我爱计算机视觉(微信id:aicvml)

 

 

论文链接:

 

https://ieeexplore.ieee.org/d…

 

看点

 

现有的VSR方法的主要问题是参考帧的特征与相邻帧的特征的融合是一步的,融合后的特征可能与原始LR中的视觉信息有较大的偏差。本文提出了一种端到端的多阶段特征融合网络,主要贡献为:

 

 

    1. 提出了一种新的VSR特征融合方法,该方法允许在主干网的不同阶段聚集空间和时间特征。

 

    1. 多尺度可变形对齐模块,用于在特征级别对齐帧。

 

 

 

方法

 

overview

 

下图显示了框架 ,包括两个子网:时间对齐网络 和调制特征融合网络

 

 

接受 输入,估计相邻帧的对齐特征 ,然后,将相邻帧的所有对齐特征连接为:

 

 

ψ共享给所有的SFT,逐步与 的多阶段特征融合,得到预测的HR帧

 

时间对齐网络(TAN)

 

给定LR帧 通过观察像素的时空邻域以非显示运动补偿的方式来时间对齐LR帧和相邻帧。该算法包括三个模块:特征提取模块、多尺度扩展变形(MDD)对齐模块和注意力模块。

 

特征提取模块:由一个卷积层和5个具有ReLU的残差块组成。利用共享的特征提取模块从 中提取特征 并将其输入MDD对齐模块。

 

MDD对齐模块:下图显示了MDD对齐模块的体系结构。输入的 串接并馈入3×3瓶颈层,以减少特征映射的通道。

 

 

先并行地堆叠两个3×3和5×5卷积核以提取多尺度特征。然后,将特征输入两个不同的扩张率为2和3的3×3的核中,有利于扩大感受野。

 

这种简单的设计可以有效地扩大接收野,其计算量远低于EDVR中的PCD对准模块。因此,MDRB有助于利用帧间像素的时间依赖性,即使在遭受复杂和大运动时,也能生成准确的偏移量参数

 

 

通过偏移量计算对齐特征:

 

 

注意力模块:由于遮挡、模糊区域和视差问题,容易产生一些未对齐,使得不同空间位置的对齐特征信息不相等,从而导致在某些特征上与参考帧存在较大差异。故设计了一个空间注意掩码M去权衡

 

 

其中, 测量 之间的像素级相似性,定义为:

 

 

其中,使用L1距离 去更加关注高置信度位置的特征。

 

调制特征融合网络

 

现有的SOTA方法通常首先通过级联将参考帧和对齐的相邻特征融合,然后将它们馈送到重构网络中以产生HR输出。然而,这种单阶段融合策略有两个局限性:

 

第一,对齐的相邻帧和参考帧在特征级有大量相似的模式,因此,简单地将它们串联在一起会给重建网络带来大量的冗余,导致昂贵的计算成本。

 

第二,融合只发生在初始层,随着深层网络层次的加深,来自相邻帧的互补时间信息将逐渐减弱。为了解决上述问题,本文提出了 级联一组插在分支主干不同深度的MRFBs。采用SRResNet的高级体系结构作为分支主干。

 

每个MRFB包含一个SFT层,该层以时间对齐特征ψ作为共享条件,从参考帧调制其输入特征映射。SFT层通过缩放和移位操作输出以ψ为条件的的仿射变换:

 

 

其中γ和β是缩放比例和位移的参数。将ψ送入不同权值的卷积层,可以得到变换参数γ和β。在每个MRFB中,在所有卷积层之后注入SFT层,在多阶段融合过程中,利用对齐的时间信息一致地增强了参考帧的视觉信息。

 

最后,我们通过一个反馈跳过连接将从最后一个MRFB学习到的高级特征反馈给第一个MRFB的输入层。这个反馈机制利用高层信息对底层特征进行细化,细化后的特征通过调制特征融合网络,便于学习从LR到HR图像空间的复杂非线性映射,无需额外的参数。

 

实验

 

实施细节

 

使用Vimeo-90K数据集的一个子集Septuplet来训练模型。使用Charbonnier惩罚函数作为损失, 包含16个MFRB。

 

消融实验

 

 

定量评估

 

不同对准模块的比较

 

 

同融合策略的比较,其中,DF将多帧的对齐特征串联起来,然后通过2d卷积进行一级融合。3DF直接利用三维卷积来提取时空特征并进行一级融合。

 

 

与SOTA的PSNR对比

 

 

END

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注