Press "Enter" to skip to content

大淘宝技术斩获NTIRE视频增强和超分比赛冠军(内含夺冠方案)

近日,NTIRE比赛结果公布,大淘宝技术视频增强算法团队STaoVideo表现出色,获得视频超分辨率与质量增强挑战赛 两个赛道冠军 :tada:。

 

NTIRE赛事介绍

 

2022年CVPR NTIRE比赛结果公布,大淘宝音视频算法与基础技术团队表现出色,在视频超分与质量增强比赛的三个赛道获得两个赛道冠军一个赛道亚军。

 

视频增强和2倍超分冠军

 

近日,2022年NTIRE视频增强和超分比赛成绩揭晓。在三个赛道中,淘宝音视频算法与基础技术团队取得Track1视频增强赛道冠军、Track2视频2倍超分增强赛道冠军、Track3视频4倍超分增强亚军的成绩。CVPR NTIRE(New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing)是全球图像视频增强方面的顶级竞赛。继在MSU世界编码器比赛夺魁后,团队再次在音视频的核心方向的权威比赛中折桂。

 

我们提出方法在NTIRE 2022压缩视频超分辨率和质量增强挑战赛的三个赛道表现如表1所示。

 

表1 淘宝音视频算法(TaoMC2)在NTIRE 2022挑战赛中的成绩

 

NTIRE比赛:压缩视频增强超分benchmark

 

NTIRE压缩视频超分和增强比赛预期建立压缩视频增强和超分的benchmark。比赛采用了包含动物、城市、室内、公园等多种场景的视频,帧率从24fps到60fps,视频精心挑选了4k无明显压缩噪声原视频,所以这些都是为了让视频更接近真实应用场景。

 

三个赛道分别是:

 

Track1是针对包括视频编码中(如采用HEVC)的高压缩比带来的失真的视频恢复问题。

 

Track2在Track1的基础上,增加挑战性,要求参赛者同时处理高压缩和2倍超分问题。

 

Track3在Track2的基础上进一步探索4倍超分和增强问题。

 

Track1的视频增强和Track2的2倍超分增强已经非常接近实际的应用场景。视频增强和2倍超分目前是工业界均有应用,将视频还原到理想视频的质量能够大幅提升人眼感官,吸引人们更愿意观看视频。

 

今年的NTIRE比赛视频增强和超分比赛云集了国内外十几支参赛团队,包括腾讯、字节、华为等知名科技企业,中科院、北大、港中文、ETH等科研机构都有参赛,其中很多比赛者都有多年的参赛经验,竞争激烈。

 

NTIRE本次发布了正式比赛报告: arxiv.org/abs/2204.09…

 

经过激烈的角逐,大淘宝技术的音视频算法与基础技术团队最终取得了两冠一亚的成绩。

 

团队方法(TaoMC2)在Track1赛道上超第二名0.01dB、第三名0.13dB,且在15个测试集中的9个视频上表现最佳,说明方法具有较好的泛化性。同时,团队方法(TaoMC2)在Track2赛道上超过第二名0.1dB,以绝对优势超出其他队伍,在Track3赛道上仅次于第一名0.01dB。

 

 

表2 NTIRE 2022挑战赛Track1(视频增强赛道)各赛队PSNR 对比

 

 

表3 NTIRE 2022挑战赛Track2(视频增强与2倍超分赛道)各赛队PSNR 对比

 

 

表4 NTIRE 2022挑战赛Track3(视频增强与4倍超分赛道)各赛队PSNR 对比

 

后文我们分享具体的方案——

 

项目摘要

 

视频恢复是一个具有广泛应用场景的问题,其目标是对含有噪声、模糊和压缩伪影等问题的低画质视频进行增强。视频超分和视频去压缩伪影是实际应用中最重要的两种视频恢复任务。循环神经网络(Recurrent Neural Network, RNN)和全自注意力网络(Transformer)具有很好的序列建模特性,近年来在视频恢复领域受到了广泛的关注。然而RNN和Transformer的训练开销巨大,训练过程中也容易出现梯度消失和梯度爆炸问题,导致模型难以收敛。针对这些问题,我们提出一个包含多帧RNN和单帧Transformer的两阶段网络,同时使用迁移学习和预训练来缩短训练时间,利用渐进式训练方法进一步提升模型性能。基于上述先进性技术,此方案在NTIRE2022视频超分与压缩伪影增强挑战赛中获得了两项冠军和一项亚军的成绩。

 

方案背景

 

近年来,互联网视频数据呈爆炸式增长。与此同时,视频的分辨率也越来越高,以满足人们对视频体验质量(Quality of Experience, QoE)日益增长的需求。但是,由于带宽的限制,网络传输视频通常会被降采样和压缩,这不可避免地会导致视频质量的下降。因此,超分辨率、压缩伪影增强等视频恢复任务在计算机视觉领域受到了广泛的关注。

 

视频恢复任务需要从视频序列中多个高度相关但并未对齐的低质量帧中提取信息,具有较高的挑战性。现有的视频恢复方法大多将其视为时空序列预测问题,主要可分为两类:滑动窗口方法[9,15,32,35,42]和循环方法[4,5,19]。例如, BasicVSR++[5]提出了一种二阶网格传播网络来更好地挖掘时空信息。它展示了循环方法的有效性,并赢得了NTIRE 2021高压缩伪影视频质量增强挑战赛的冠军。然而,循环方法在时间顺序上对视频进行逐帧串行处理,计算效率不高。最近一些工作[2,23]尝试利用Transformer来并行计算,但循环方法和Transformer的计算复杂度都是序列长度和图像大小的平方,整体计算复杂度为 。由于这些网络巨大的显存开销,即使是在英伟达A100 GPU上,每次训练也无法加载16帧以上的输入序列,导致在REDs数据集[27]上性能不如BasicVSR++方法。除了GPU内存消耗较大外,像Transformer这样复杂的模型也比较难以训练和调优。此外,“大”模型也更容易出现过拟合,导致不同视频增强效果的质量波动。

 

针对上述问题,我们提出了一种基于循环网络和Transformer的两阶段视频恢复框架。具体来说,第一阶段用于粗恢复视频帧,并减少帧间质量波动。第二阶段对第一阶段的恢复结果进行逐帧精调,可以有效恢复受损严重的区域。第一阶段网络基于BasicVSR++进行改进,第二阶段采用SwinIR[24]作为骨干网络。这两个模型分别进行训练,以节省内存资源,进一步提高精度。此外,在这两个阶段的训练过程中采用了迁移学习和渐进训练策略,不仅加快了收敛速度,还提高了最终的视频恢复性能。

 

综上所述,我们的贡献如下:

 

 

    1. 提出了一个两阶段的视频恢复框架,以同时消除压缩伪影和缓解帧间质量波动。

 

    1. 引入了一种渐进式模型训练方案,以稳定模型训练并提高最终性能。

 

    1. 引入了迁移学习和预训练方案,以缩短模型训练时间。

 

    1. 我们提出的方法在增强性能和模型复杂度之间实现了很好的权衡,并赢得了NTIRE2022视频超分与压缩伪影增强挑战赛。

 

 

相关工作

 

视频恢复

 

压缩视频质量增强作为视频恢复的主要研究方向之一,在过去的几年里得到了的广泛研究[11,15,35,41,42]。其中,现有的方法大多是基于单帧的质量增强[11,35,41]。观察到压缩后的视频帧之间存在明显的质量波动,MFQE[42]及其扩展版本MFQE 2.0[15]提出利用邻近的高质量帧对待增强帧进行补偿。这两个方法采用时序融合方案,利用显示光流预测来进行运动补偿。STDF[9]利用可变形卷积,同样考虑了时序信息补偿,并避免了显式光流估计不准可能导致的对齐问题。

 

视频超分

 

除了压缩视频质量增强,视频超分辨率(VSR)也是视频恢复的一个主要研究方向。VSR通过提高视频帧的分辨率来恢复视频质量,与单张图像超分辨率(single image super resolution, SISR)不同,VSR可以利用相邻帧信息来重建高分辨率序列。现有的VSR方法可分为两类:基于滑动窗口的方法[22,32,36,43]和循环方法[4,5,18,19]。其中,EDVR[32]采用可变形卷积[8,46]来对齐相邻帧。与EDVR类似,D3DNet[43]利用可变形的3D卷积挖掘视频时空信息。BasicVSR[4]对VSR方法中的传播、对齐、聚合、上采样等基本组件进行了梳理,并提出一个简洁有效的基线方法。在BasicVSR基础上,BasicVSR++[5]通过双向传播策略和光流引导的可变形卷积对齐进一步提高了性能。

 

我们采用BasicVSR++作为第一阶段的骨干模型。

 

视觉Transformer

 

近年来,起源于自然语言处理 (Natural Language Processing, NLP)的Transformer网络在许多视觉任务中表现优异,包括图像分类、目标检测、语义分割、人体姿态估计和视频分类[1,3,12,16,26,26,34,34,44]。具体地,Swin Transformer[26]提出了一种具有滑动窗口机制的层级Transformer结构,既有CNN的归纳偏置,又有Transformer具有长程注意力的优点。

 

也有工作尝试将Transformer应用到底层视觉任务中[6,7,20,24,33,37,45]。例如,SwinIR[24]提出了基于Swin Transformer的图像恢复模型,它不仅能够很好地处理局部相关性,还能有效地捕获长程依赖关系。Uformer[33]提出了一种通用的基于UNet的Transformer结构,在真实场景图像降噪任务中表现出了杰出的性能。

 

Transformer也被用于视频恢复任务[2,13,23]。VSRT[2]利用Transformer的并行计算能力来并行化相邻帧特征对齐。VRT[23]提出了时序交互自注意模块,用于更好地挖掘时空信息。但是由于这些方法模型训练消耗巨大的显存资源,目前还无法实现较长的输入视频帧训练。

 

我们采用SwinIR作为第二阶段的骨干模型。

 

方法

 

两阶段网络框架

 

我们提出的两阶段视频恢复框架如图2所示。其中,第一阶段(Stage I)网络基于BasicVSR++,在其基础上将二阶补偿替换为峰值质量帧(Peak Quality Frames, PQF)[15,42],此外,将BasicVSR++[5]的重建模块从5个残差模块加深到55个残差模块。第二阶段(Stage II)利用SwinIR[24]去除严重的压缩伪影,并进一步提高视频帧质量,SwinIR是当前图像恢复领域最先进的网络之一。最后,将第一阶段和第二阶段的网络进行级联,并生成最终的视频增强结果。具体来说,首先将连续 张带有压缩伪影的原始视频帧 输入第一阶段模型,再将第一阶段的输出 逐帧输入第二阶段,第二阶段的输出 作为最终的增强结果,并拼接成增强后的视频。

 

图2 两阶段网络框架

 

第一阶段网络与渐进式训练

 

如图3所示,第一阶段网络主要包含三个模块:特征提取、传播和图像重建。给定一个输入视频,首先利用两个步长为2的卷积和五个残差模块提取输入视频帧空间特征,同时使用双三次滤波器对输入帧进行4倍下采样,并输入SpyNet[29]计算前、后向光流。接下来,对于第 帧,将其相邻帧 、 以及前后两个最近的PQF帧进行特征聚合。对于进行特征聚合的每一帧,利用其光流辅助特征对齐与传播。最后,利用55个残差模块对特征进行重建。具体地,在结构上使用PixelShuffle[30]算子来恢复视频分辨率,利用全局残差[17]来降低模型的学习难度。

 

 

图3 第一阶段网络结构

 

如前所述,重建模块包含55个残差模块,如此大规模的网络是比较难以训练的,因此,我们采用渐进式训练[14,28]策略训练第一阶段网络。具体地,分6次对模型进行训练,每次训练分别使用其前5、15、25、35、45和55个残差模块进行图像重建。用 、 、… 表示第1


5、6
15、… 46-55组残差模块, 和 表示特征提取和特征传播模块, 和 表示第一阶段网络最后的PixelShuffle层和全局残差连接。给定输入帧

可通过如下渐进式训练过程得到最终的增强帧:

 

 

对于第一次训练,使用BasicVSR++开源模型初始化 、 、 和 的权重,对于后续的第 次训练,加载第 次训练收敛的模型 、 、 、 以及 模块的权重进行初始化。需要注意的是,图3所示特征传播模块包含时序信息,为了简洁起见,在上述公式中省略了该信息。

 

第二阶段网络与迁移学习

 

尽管BasicVSR++单模型拥有业界领先的视频恢复能力,但其对严重压缩伪影区域的恢复效果还有提升空间。为此,我们设计了第二阶段网络来进一步提升第一阶段网络增强后的视频帧,类似于参考文献[32]中的两阶段恢复策略。与[32]不同的是,实验证明,级连两个BasicVSR++模型带来的提升极其微小,为此,我们在第二阶段使用单帧增强模型,来进一步提高视频增强质量。

 

SwinIR[24]是当前业界最佳图像增强方案之一,我们使用该网络作为第二阶段模型,用于进一步增强第一阶段恢复后的视频帧。SwinIR网络结构基于Transformer,需要大规模数据进行训练,为此,我们采用迁移学习方法调优第二阶段网络。具体地,我们使用[24]开源的RGB去噪网络对第二阶段网络进行权重初始化,再使用视频增强数据集对其进一步调优。

 

实验

 

数据集

 

我们使用两个数据集来训练提出的两阶段网络,其一是NTIRE 2022挑战赛官方发布的LDV数据集[39]。它包含240个qHD序列,包含10类场景,分别为动物、城市、特写、时尚、人、室内、公园、风景、运动和车辆。此外,我们构建了一套包含870段视频的大规模数据集,包含LDV数据集中的10个场景,每个场景87段视频,均为YouTube网站下载的4K分辨率视频序列。我们参考NTIRE 2021报告[38]中描述的数据处理程序,将4K序列转换为qHD序列。并进一步去除压缩序列中的重复帧和原始序列中的对应帧。

 

为了验证模型性能,从上述十个场景中,每个场景选择一个序列来构建线下验证集。这10个序列分别为LDV数据集中的030、056、102、106、109、119、124、125、158和189。此方法最终使用的训练集为1100个视频,验证集为上述10个视频。

 

实施细节

 

对于第一阶段,首先加载开源BasicVSR++模型,并使用Charbonnier损失函数进行300K迭代次数微调。训练采用Adam优化器,初始学习率为 ,学习率调度策略为带warmup的余弦退火,退火周期为300K次迭代,在前10%次迭代中,学习率线性增加。此外,利用渐进式训练,将图像重建部分的残差模块从5个增加到55个,逐步使模型达到收敛。最后使用均方误差(Mean Squared Error, MSE)损失函数对模型进行100K次迭代微调。

 

对于第二阶段,首先加载开源图像去噪任务SwinIR模型,并使用Charbonnier损失函数进行微调。然后在自建数据集和LDV训练数据集上,使用均方损失函数对模型进行进一步微调,初始学习率为 。值得注意的是,第二阶段为单帧模型,训练数据并非全部视频帧,我们对每个视频进行8取1抽样作为训练集。

 

所有实验均在英伟达4卡V100上进行训练。

 

客观表现

 

 

表5 第一阶段模型在Track 1赛道PSNR 表现

 

其中,LDV表示230个官方训练集,EX表示870个YouTube采集训练集,cleaned_EX表示清洗后的YouTube采集训练集,MSE指均方误差损失函数,RMD指删除重复帧预测策略。

 

 

表6 两阶段网络在Track 1赛道线下10个验证集视频对PSNR 表现

 

其中,TTA表示测试时集成方法,TTA_I和TTA_II分别指在第一阶段和第二阶段进行测试时集成。

 

峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)可用于量化视频增强性能。本节展示提出方法在Track 1赛道两个数据集上的性能:一是我们自选的10个视频序列线下验证集,二是官方提供的15个视频序列线上验证集。

 

如表3所示,第一阶段整体取得了0.326dB的PSNR增益。特别地,额外数据训练提高了0.083dB PSNR值,对该数据进行清洗可进一步提升0.043dB。渐进式训练方法将PSRN提高了0.128dB,同时增加了15.82M模型参数量。使用均方误差损失函数微调和删除重复帧预测分别带来0.028dB和0.014dB的PSNR收益。

 

表4展示了两个模型在线下验证集上每个视频的PSNR值,第二阶段将单模型PSNR提升了0.11dB,进行测试时集成(Test Time Asemble, TTA)后,PSNR提升了0.13dB,并在最终的线下测试集上达到了33.16dB的成绩,与基线方法BasicVSR++相比,整体提升了0.36dB。说明第二阶段可以提升视频恢复性能,也验证了两阶段方法在视频恢复任务中的有效性。

 

主观表现

 

图1展示了我们方法在NTIRE 2022挑战赛官方测试集上的增强效果,图4展示了我们方法在自选线下验证集上的增强效果。从图中可以看出,我们的方法可以对压缩视频中对模糊区域恢复出丰富的细节,此外能够减少压缩视频中的运动模糊,同时提高物体边缘的清晰度。

 

图4 线下验证集主观效果

 

消融实验

 

表7展示了第二阶段网络迁移学习的消融实验结果。相比从头开始训练的方法,使用迁移学习后,第二阶段网络的PSNR提升了0.04dB,说明将图像去噪知识迁移到压缩视频增强任务中可以取得较好的效果。此外采用迁移学习可以有效缩短训练时间,从66小时减少到29小时,验证了迁移学习训练的优势。

 

表7 第二阶段迁移学习消融实验

 

NTIRE22

 

我们提出方法在NTIRE 2022压缩视频超分辨率和质量增强挑战赛的三个赛道表现如表8所示。在三个赛道中,均使用了测试时集成方法[31,32],其中Track 3赛道还使用了模型融合方法。具体地,对于Track 1、2,对输入视频帧进行翻转和旋转,为每个样本生成8个增强副本,然后分别送入第一阶段和第二阶段网络,最终计算第二阶段网络的8种预测平均值。对于Track 3,除了Track 1、2中的8种增强手段外,还在第一阶段进行了模型集成,即对两个模型的16种预测计算平均值,并将该平均值用作第二阶段模型的输入。

 

 

表8 我们的方法在NTIRE 2022挑战赛中的PSNR 表现

 

结论

 

我们提出了一个两阶段视频增强框架,用于同时去除压缩伪影和缓解视频帧间质量波动,引入了渐进式训练和迁移学习策略,用以稳定训练过程、缩短训练时间,并最终提高视频增强性能,在增强性能和模型复杂度之间取得了良好的平衡,并在NTIRE2022视频超分与压缩伪影增强挑战赛中获得了两项冠军和一项亚军。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注