Press "Enter" to skip to content

来看看深度学习如何在文娱行业“落地”

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

深度学习伴随着大数据与云计算技术的崛起而快速发展起来,并在计算机视觉、语音等感知领域迅速取得成功。相对于传统机器学习,深度学习的算法设计更加灵活,可以显着提升 针对感知类问题 的效果。

 

随着算力及分布式工程能力的进一步提升,深度学习的参数规模越来越大。可以说,参数越多,模型对知识的理解就越深刻。而深度学习模型也从传统的针对单一任务,比如文本识别、物品识别、语音识别等,向多任务处理发生转移,我们称这种一个模型可以同时处理文本识别与理解、图片识别与理解,实现跨领域联动识别与理解的能力为 多模态通用AI能力 。

 

随着深度学习技术的不断发展,越来越多的研究者开始关注AI技术在医疗健康、文娱、工业等领域中的应用和创新。 而天池大赛提供了一个“云”上的练兵场,让所有对人工智能应用感兴趣的开发者都能很容易地触达业界的实际需求和场景。

 

下面是阿里巴巴优酷视频增强和超分辨率挑战赛的相关内容:

 

1 业界应用

 

图片的增强和修复算法其实早已融入我们的生活。

 

比如,被广泛使用的修图软件Photoshop,内部就集成了很多有关亮度、色彩的增强算法。

 

再比如,我们自拍用的“美颜”,本质上也是对人脸和肤色的增强。近年来,在手机圈火爆的“超级夜景”等功能,也是典型的图像增强技术。

 

从拍摄硬件上来说,其实我们看到的图片、视频都已经被ISP(Image Signal Processing,图像信号处理)增强过了。ISP内部会进行去噪、色彩增强、色调映射等过程,将原始的RAW格式的数据调整到人眼可见的范围。另外,相对于上层应用使用压缩后的数据,使用RAW格式的数据更容易达到好的处理效果。

 

因此,对于增强任务,沿着数据获取链路向上游走,走软硬结合的路子是 最终的解决方案 。

 

目前,各云平台厂家也都提供图像增强能力,可见其价值。

 

2 文娱行业面临的画质问题

 

一方面,近两年《开国大典》《我的祖国》等高清修复内容多次刷屏全网,使老电影焕发新生机。对于影视剧来说,画质和拍摄年代有较强的相关性,也就是说随着拍摄设备技术的提升,画质也在提高。那幺,对于老片,也需要与时俱进,需要做高清修复,以满足用户对高清,甚至超高清的需求。

 

另一方面,随着互联网的快速发展,内容形式已经由图文转向短视频,目前短视频已成为网民碎片化娱乐的首选,而对于目前大量增加的UPGC视频的画质情况却不容乐观。

 

UPGC视频的来源主要包括两种:

 

一种是由用户上传的正片切条产生的短小视频。由于用户使用的片源清晰度无法保证,又经过多次的转码、压缩、缩放,因此导致画质下降、压缩噪声、块效应等问题;

 

另一种是用户拍摄上传的。虽然目前手机的相机成像质量越来越好,分辨率越来越高,甚至出现了1亿像素、30倍变焦等黑科技,但在不受控的拍摄环境中,普通用户一般无法控制拍摄质量,从而导致出现噪声、模糊、光线等问题。

 

3 实验室介绍和技术手段

 

摩酷实验室是由阿里巴巴达摩院和优酷联合成立的,旨在对世界级的前沿Media AI技术进行研究,驱动在全媒体领域的持续产品模式创新,进而深耕并沉淀为可规模化的生产力。依托优酷形式多样的海量视频数据,经过艰苦攻关,摩酷实验室已经沉淀出完善的全视频质量评价和增强能力。

 

一个典型的视频增强流程包括 去噪、超分辨率、插帧、HDR 等算法模块,如果原片是黑白影片,则还可以进行自动上色。对于老片修复,还有去除胶片污损、反交错等过程。

 

各个模块有不同的作用:超分辨率技术可以将原低分辨率视频扩展到4K;插帧算法可以提升帧率,有助于消除视频顿挫感,提升平滑度;HDR用于改善动态范围。

 

4 评估指标

 

对于算法恢复的视频和抽帧结果,首先采用 PSNR (Peak Signal to Noise Ratio,图像的峰值信噪比)和 VMAF (Video Multi-Method Assessment Fusion,视频的多方法评测融合)两种评价指标进行逐帧计算。最终的PSNR结果为完整视频和抽帧视频中所有帧的平均值,最终的VMAF结果为完整视频所有帧VMAF结果的平均值。然后对PSNR和VMAF的得分进行加权,得到竞赛得分。

 

 

5 解题思路

 

如图1所示,建模基本流程分为以下三步。

图1 建模基本流程

 

图片插值重建,也被称为超分辨率重建,是数字图像处理的一个重要研究分支。它是指利用多帧低分辨率图像/视频,通过一定的重建算法得到高分辨率图像/视频。图片插值重建是近年来学术研究的热门,已在工业界有广泛的应用。

 

本赛题通过对低清分辨率视频进行分帧处理,即输入低分辨率的单帧或多帧图像,输出高分辨率的单帧或多帧图像,再合成相应的高清分辨率的视频,故此问题为典型的视频/图像超分辨率(Video/Image Super Resolution)重建问题。

 

本文摘自 《阿里云天池大赛赛题解析——深度学习篇》 一书,欢迎阅读此书了解更多关于天池大赛深度学习方面的内容。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注