Press "Enter" to skip to content

回归本真,焕发新生——基于光流生成对抗网络的视频超分

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

腾讯多媒体实验室专栏

 

随着5G网络的逐渐普及,更快的传输速度、更低廉的价格使得高清视频得以在终端进行展示。在高清视频的应用上,超分技术扮演着重要的角色。超分技术分为图像超分辨和视频超分辨,其中视频超分辨技术不仅需要生成细节丰富的一帧帧图像,还要保持图像之间的连贯性,有更大的技术挑战。腾讯多媒体实验室的视频超分能力可以明显地细化边界、增加细节,同时保持视频序列帧间的一致性。

 

一、问题分析

 

在视频超分辨率任务中,基于深度学习的方法中主要使用标准损失函数,如均方差损失(Mean Square Error,MSE)。当出现一些高频分量(例如细节,边缘)时,使用均方差损失函数容易生成过度平滑的画面内容,使得细节不够丰富。如果视频中有明显的压缩失真或噪声,为了抵消均方差损失无法衡量画面结构相似性的缺陷,一些方法使用SSIM(structural similarity index)结构相似性度量作为网络的损失函数来提升画面的主观质量。与图像超分相比,视频超分的主要难点在于如何获取清晰、一致的画面内容,且不会出现不自然的伪影、帧间闪烁。基于均方差损失或者SSIM的方法在提升画面细节方面能力较弱,而基于生成 对抗 网络(GAN)的超分方法能生成更丰富的画面细节。尽管对抗训练可以改善单个图像的视觉质量,但它并不常用于视频,因为容易出现帧间生成的细节不稳定而引起画面闪烁的情况。在视频超分中,我们需要以较长的帧序列生成稳定的画面细节。

 

二、 解决方案

 

 

 

考虑到以上问题,我们使用了一种基于光流的生成对抗网络视频超分算法,其基本模型结构如下图所示。

 

 

该算法由一个光流生成器网络和时空判别器网络组成,光流生成器网络由光流估计以及超分网络组成,首先对输入的相邻帧进行流估计,学习帧与帧之间的对齐关系,然后再进行超分,以帮助超分网络进行细节生成,既利用了帧间时序信息,又起到对齐相邻帧的作用,使得帧间的连续性得以保证。我们使用了一个基于时序的时空判别器,区别于普通的以单张图象作为输入的判别器,该判别器的输入是一个帧序列,判别器不仅提取当前帧的空间信息,而且提取帧间的信息差异,使得空间与时序信息能够被同时利用。同时损失函数的设计也考虑了时序信息。

 

训练过程中,超分网络和光流估计一起训练,在不断的对抗中欺骗时空判别器。时空判别器同时也在优化,形成相互博弈。该时空判别器是重要组成部分,因为它既考虑图像内容又考虑帧间差异,同时兼顾时空信息,并对帧间不连贯性进行惩罚,使得超分网络不断生成与之前帧连续的高频细节。训练完成后,时空判别器则不需要再用,只需要光流估计与超分网络来对输入的连续帧进行超分。本算法利用时空判别器网络对生成网络的输出进行判别,有助于生成网络生成更多的细节,明显地提升了画面的主观效果,并较好地保持了帧间一致性。

 

三、效果展示

 

在实际使用时,线上数据具有噪声类型多,场景丰富的特点。基于该算法我们训练出一个泛化能力强的超分模型,具有降噪、画面加清、细节增强的能力。如下图,左边是源视频,右边是超分后的结果,可以发现画面中的块效应、压缩噪声能够很好地被去除,而且头发上的细小纹理被超分出来,人脸上细小的毛孔也能被恢复,整体画面清晰自然。

 

(点击以下图片,查看超分效果)

 

 

 

 

 

 

 

卡通场景如下图所示,左边是源、右边是超分的结果。同样的,视频中的噪声能够较好地去除,同时增强了画面细节,视频的清晰度更高。

 

 

 

四、结语

 

我们开发了一种基于光流和时空判别器的生成对抗网络视频超分算法,该算法可以有效地增加超分视频中的纹理细节,一定程度地降低视频中的失真,同时保持视频的帧间一致性。腾讯多媒体实验室会与腾讯云一起继续深耕视频超分领域,让低分辨率的视频画面焕发新生,更好地显示在分辨率越来越大的显示设备上。

 

 

作者:谢植淮

 

编辑:熊馨雅

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注