Press "Enter" to skip to content

AnimeSR:可学习的降质算子与新的真实世界动漫VSR数据集

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

Xintao大佬团队的又一力作,本篇论文 『AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos』 针对真实动漫VSR提出了一个新的动画数据集,此外将真实世界降质算子扩展成可学习的算子,在NIQE等评价指标上实现了SOTA。

 

 

作者单位:腾讯PCG ARC实验室

 

论文链接:https://arxiv.org/pdf/2206.07038

 

 

       01       

看点

 

本文汇总了三个实现动漫VSR的三个关键改进措施:

 

 

最近的真实世界VSR方法的退化大多使用没有学习能力的基本算子,如模糊、噪声和压缩。本文建议从真实的LQ动画中学习这些基本算子,并将学习到的算子加入到退化过程中。这种基于神经网络的基本操作可以帮助更好地捕捉真实退化的分布。

 

建立了一个大尺度的HQ动画数据集AVC,以便对动画VSR进行训练和评估。

 

研究了一种高效的多尺度网络结构AnimeSR,它利用了单向循环网络的高效性和滑窗方法的有效性,达到比以前先进的方法更好的性能。

 

 

 

 

       02       

 

方法

 

AVC数据集

 

训练集AVC-Train包含553个高质量的剪辑,共55300帧。测试集AVC-Test包含30个片段,共3000帧。为了评估实际场景中的方法,本文还构建了一个真实世界的测试集 AVC-RealLQ ,它由44个低质量片段组成,下图显示了数据集的一些示例。

 

 

降质合成中的可学习基本算子

 

由于缺乏LR-HR训练对,最近的工作设计尽可能接近真实世界的退化模型,然后利用降质模型从HR中合成LR。上述降质可描述为n步:

 


 

经典的降质模型中基本算子包括模糊、噪声、缩放、JPEG/FFMPEG压缩等。这些算子不具有任何学习能力,这在本质上限制了它们对真实世界降质的合成能力,如下图a。另一类采用大型神经网络和对抗学习方法合成LR样本。

 

然而,利用一个大的神经网络来学习整个退化过程和分布是一个挑战。这些方法只对有限范围的图像有效,而且通常会产生令人不快的伪影,如下图b。

 

本文建议学习用于降质合成的基本算子。与使用一个大型网络的方法不同,本文使用两三个卷积层训练微小的神经网络,以捕捉真实退化的主要特征,神经网络后续纳入降质合成过程。神经算子是可学习的,并且能够合成那些经典算子无法模拟的真实退化。可学习的基本算子极大地扩展了退化空间,可以覆盖更多真实的退化。

 

 

输入缩放策略

 

本文使用LR-HR对以监督的方式训练可学习的基本算子。然而,获得真实世界LQ视频的LR-HR对用于训练是具有挑战性的。对于真实的LQ动画,本文使用基本算子训练退化模型获得初步结果,如下图。正如预期的那样,输出并不令人满意。通过使用不同的缩放因子(×1—×0.3)来调整输入的大小。

 

可以观察到,随着输入分辨率的降低,伪影逐渐减少。但是过大的降尺度因子会导致细节/信息的丢失。其中,通过在这些视频样本上缩放×0.5的输入,可以在伪影消除和细节损失之间取得良好的平衡。因此,可以手动选择一个满意的输出作为伪HR,称为“输入缩放策略”。

 

 

可学习的基本算子

 

本文挑选了几个具有代表性的真实世界的LQ动画来训练可学习的基本算子。首先筛选VSR模型在原比例上表现较差,但在合适的比例因子下可以产生较好结果的LQ视频,并确定每个视频的最佳缩放因子。每段LQ视频采集大约2000帧,将它们输入到VSR网络中,获得伪HR样本。然后使用LR—伪HR对训练可学习的基本算子。

 

神经算子由3个3 × 3卷积层组成,隐通道维数为64。在卷积层之间使用LeakyReLU激活。本文从不同的LQ视频中训练出三个可学习的基本算子,并将它们放入一个池中。在每次训练迭代时从池中随机选择一个,并将其纳入退化过程中。

 

网络架构

 

实际动画VSR中的网络结构要求在性能和效率之间取得良好的平衡。目前的实用模型如Real-ESRGAN和RealBasicVSR通常采用非常大的网络,处理非常耗时,占用大量资源。当现有视频超分辨率达到4K/8K分辨率时,这一缺点会变得更加严重。在实际VSR中通常采用单向循环结构。然而,后续帧的缺失阻碍了时间信息的利用。因此在高效的单向结构的基础上,本文进一步采用了滑动窗口结构。循环块接收一个帧序列。

 

 

如上图b,循环块中采用10个残差块的多层级设计。采用三个量表,×1,×0.5和×0.25并为这三个量表分配了5、3和2个块。本文在AnimeSR中不使用光流,因为作者根据经验发现光流不会带来明显的视觉改善。此外,光流的计算也降低了训练和推理的速度。

 

 

       03       

 

实验

 

消融实验

 

数据集、退化模型、多尺度结构和可学习的基本算子(LBO)的消融实验

 

 

定量评估

 

作者认为NR-IQA指标并不总是与视觉质量一致,特别是在更精细的尺度上,所用的MANIQA比NIQE更符合感知视觉质量。

 

 

定性评估

 

 

       04       

 

总结

 

本文出自xintao大佬团队,AnimeSR的主要贡献如下:从真实的LQ动画中学习降质算子以更好地捕捉真实退化的分布;构建了一个大规模的HQ动画视频数据集AVC以便于动画VSR的训练和评估;有效的“输入缩放策略”使学习这些神经操作成为可能;进一步研究了一种高效的多尺度网络结构使AnimeSR实现SOTA。针对整篇文章,笔者认为:

 

 

输入缩放策略略显主观,更加客观的筛选方案时候是否是后续可以继续研究的内容呢,其次,过往单项VSR的输入为和,本文将加入输出作为滑窗的创新点略显强求,也作为输入是否就非严格意义上的‘unidirectional’了呢?

 

文中在训练集的选取上是使用光流过滤静态场景,但是在VSR中提及使用光流的效果不佳,这部分没有实验或者理论的论证。所以是否是光流本身的问题导致的效果不好,使用其他的对齐方法呢?还是数据集中的运动范围单一所导致的呢?笔者认为还需更加详细的论证。

 

本文更多的采用MANIQA作为定量的评估指标,是否可以添加稍多的评估指标例如NRQM、PI、BRISQUE等,此外,人工合成数据是否也算是真实世界中的一种呢?

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注