Press "Enter" to skip to content

北航团队使用深度学习,中和大气湍流对复杂场景成像的影响

编辑 | 萝卜皮

 

影像拍摄已经渗透到了现代人生活的方方面面。然而无论是手持摄像还是街边监控都会受到环境中各方面因素的影响,从而导致拍摄图像不清晰,大气湍流便是这众多因素之一。

 

具有不同尺度涡流的湍流介质在波传播过程中会引起折射率的波动,干扰原有的空间关系、相位关系和光路。二维成像系统的输出受到这种效应带来的变形的影响。随机性以及多种类型的退化使得分析相互的物理过程成为一项具有挑战性的任务。

 

 

通过大气湍流成像的示意图。

 

来自北京航空航天大学的研究团队,提出了一个生成对抗网络(TSR-WGAN);它集成了嵌入在三维输入中的时间和空间信息,以学习观察到的和潜在的理想数据之间残差的表示。无需额外假设湍流的规模和强度即可生成视觉友好且可信的序列。

 

研究人员利用数据集对 TSR-WGAN 进行了测试。该数据集包含 27,458 个序列,411,870 帧算法模拟数据、物理模拟数据和真实数据。TSR-WGAN 展示了较高的视觉质量和对随机扰动和对象运动之间差异的深刻理解。这些初步结果还揭示了深度学习从特定角度解析随机物理过程以及在有限数据的情况下解决复杂图像重建问题的潜力。

 

该研究以「 Neutralizing the impact of atmospheric turbulence on complex scene imaging via deep learning 」为题,于 2021 年 10 月 14 日发布在《 Nature Machine Intelligence 》。

 

 

背景

 

湍流是惯性力和粘性力共同作用于流场的结果,其中粘性的阻尼效应弱于流体流动的动能。不同尺度涡流的存在及其相互作用,使得对此的分析成为经典物理学中的一个难题。

 

由于大气边界层的复杂性,湍流在这部分空间中无处不在,具有错综复杂的内部结构和复杂的传输特性。热驱动湍流在日常生活和工业生产以及监视和摄影测量中广泛存在。气流可能的多种状态的各向异性和不均匀性加剧了光线进入成像设备之前的折射率波动,并且在短曝光成像过程中,不同程度的几何畸变和模糊影响具有时空变化特性的整个平面表面。与大气闪烁相结合,这些退化不利于态势感知以及随后的数据处理和分析。

 

航空航天领域的远距离安全监控、激光通信和高分辨率对地观测等众多重要应用都受到湍流条件的严重困扰。因此,一种稳健的湍流缓解途径对于满足军事和民用应用的基本要求至关重要,也将为探索湍流场的特征开辟可能性。

 

简介

 

大气湍流失真图像数据集

 

研究人员构建了一个包含算法和物理模拟湍流失真视频序列和相应参考序列的数据集,以及真实世界数据,以深入探索湍流行为模式,并促进评估表征湍流潜在结构的效果。具体来说,该数据集包含 2,133 个算法模拟序列(31,995 帧)、20,124 个物理模拟序列(301,860 帧)和 5,201 个真实世界序列(78,015 帧)。数据集中的场景主要由草原、沙漠等自然场景和道路、人造结构等城市场景组成,包含大量动态内容。

 

评价指标

 

为了有效验证各种湍流缓解方法的性能,应用了一系列可信的图像质量评估 (IQA) 和视频质量评估 (VQA) 措施。IQA 涉及完全参考和减少参考测量,以适当地评估带有标签的数据。全参考指标包括峰值信噪比、结构相似指数(SSIM)、梯度幅度相似度偏差(GMSD)、特征相似度(FSIM)和视觉显着性指数(VSI)。提供与感知视觉质量相关的单个帧的评估。时间连续性对于实验中的结果评估也很重要。VQA 减少参考熵差分 (RRED) 指数,包括 S-RRED 和 T-RRED,用于执行三维评估分数的整合。

 

比较方法

 

使用传统的配准融合框架、频域滤波和改进的幸运区域方法进行比较 [特别是 CLEAR、Laplacian-Riesz 金字塔方法(LRP)、Sobolev 梯度流方法(SGF)和增广拉格朗日方法 (AL)] 。

 

除了无监督方法外,还比较了基于深度学习的去模糊方法,包括 DeBlurNet、DeblurGAN-v2、DBLRGAN、STRCNN、CDVD-TSP 和 DVD-SFE,以证明所提出的 TSR-WGAN 的强大功能。根据相应算法的要求,采用全时间序列作为 LRP、SGF 和 AL 方法的输入。

 

对于单帧重建方法 CLEAR,输入被分成 15 个连续帧的序列,相邻序列有 14 个相互重叠的帧。相应的参数遵循开源代码的默认设置。对于基于深度学习的方法,采用其超参数的默认设置。

 

算法模拟数据的性能

 

对算法模拟数据进行了实验,以评估湍流缓解方法在纯静态场景和具有更大扰动设置多样性的动态场景中的性能。静态和动态场景的比例为 15:9,每个场景由算法处理,具有三种不同的参数设置,以丰富湍流强度的变化。这里应用了六个评估指标,TSR-WGAN 在所有六个评估指标上都显示出明显的优势。

 

 

用于稳定和保留运动信息的湍流缓解模型的比较。

 

物理模拟数据的性能

 

所有比较方法都在物理模拟数据上运行。监督方法,包括 TSR-WGAN、DeblurGAN-v2、DeBlurNet、STRCNN、DBLRGAN、CDVD-TSP 和 DVD-SFE,在从我们的湍流失真数据集(测试数据除外)中采样的训练集上进行了训练。

 

所提出的 TSR-WGAN 在共同目标图像/视频质量评估中取得了最佳的量化性能。值得注意的是,TSR-WGAN 的统计性能明显优于比较方法,其值比所考虑的时间相干指数的平均比较水平低 45.69%。时间 RRED 指数旨在测量失真视频和参考之间的运动差异,并且对湍流场景中的典型闪烁和几何失真很敏感。这表明 TSR-WGAN 有效地稳定了内容的波动并减轻了视觉不连续性。

 

下图直观地显示了 TSR-WGAN 的湍流去除能力。与定量结果一致,所提出的 TSR-WGAN 明显抑制了湍流带来的模糊效果。

 

 

TSR-WGAN 在测试视频序列的一帧上的性能。

 

由于非均匀介质引起的到达角的多次变化,静止和运动物体都会存在异常闪烁。因此,与去模糊任务不同,稳定性也是湍流中和的一个重要因素。从视频序列中采样静态区域以计算整个持续时间内像素强度的方差,如下图所示。TSR-WGAN 提供更稳定的性能,结果的均方误差显着低于测试场景中的其他方法。

 

 

静态区域序列处理方法的比较。

 

下图显示了各种方法在稳定静态内容方面的差异。可以看出,TSR-WGAN 对大气扰动引起的类锯齿波进行了相当程度的缓解,而其他序列处理方法的改善并不明显——其他方法的线条仍然不平滑,表明显在抖动,与数值结果一致。在这项任务中没有比较 CLEAR、LRP 和 SGF 方法,因为这些单帧目标框架难以恢复流畅的运动。

 

 

具有相同时间索引的列序列。

 

在动态场景中,基于单帧的方法无法恢复物体运动,而 TSR-WGAN 更好地将内容的运动与湍流引起的波动和闪烁区分开来,从而给出令人满意的视觉效果。

 

在真实数据上的表现

 

真实数据由在澳大利亚录制的真实视频序列和一系列纪录片中的采样场景组成(详细信息在方法中介绍)。由于缺乏基本事实,研究人员采用了主观评分策略。下图展示了 TSR-WGAN 的泛化性能,它显示了远高于其他方法的真实评分。因此可以推断,基于物理模拟数据训练的 TSR-WGAN 模型已经捕捉到了成像结果中湍流效应的普遍模式,并且可以基于时空相对性有效地中和或补偿相关失真。

 

湍流场深度的变化使成像平面的畸变复杂化,其中时空变化的特性得到加强。TSR-WGAN 仍然有效地抑制了湍流效应,由此我们可以推断出,通过更广泛的数据采样可以进一步提高所提出方法的容量。

 

 

湍流缓解模型的主观比较。

 

结语

 

总之,将所提出的 TSR-WGAN 方法与现有的经典湍流缓解方法和监督去模糊方法进行了比较,以验证其有效性。研究人员构建了一个大气湍流失真视频序列数据集,包括总共 27,458 个视频和 411,870 帧用于建模和实验,其中包含配对算法和物理模拟数据以及包含真实世界湍流的数据。

 

采用经典的全参考/减少参考图像/视频质量评估措施,来评估测试方法在减少湍流方面的性能。通过配对比较进行人类主观调查,以分析人类视觉系统对湍流去除效果的偏好。客观和主观指标的数值结果证明了 TSR-WGAN 优于其他方法。

 

 

物理仿真平台示意图。

 

此外,测试中使用的 TSR-WGAN 模型仅在物理模拟数据上进行训练,并且在算法模拟和现实世界数据上都取得了可喜的结果,支持了该方法的通用性。TSR-WGAN 的突出性能表明在日常使用的移动设备的监视、遥感和摄影中具有广阔的应用前景,可以有效地提高在较远距离记录的数据的视觉质量。

 

该研究表明,基于深度学习的方法具有精心设计的架构,与参数无关,有可能解决复杂随机空气动力学现象的逆成像问题,而无需复杂的手工特征。可以想象进一步发展相关技术和理论模型来解决几个军事和民用领域的关键应用问题,包括激光通信中的相干退化,高分辨率地球观测中的能见度增强,以及进一步探索混沌理论中的湍流机制研究和现代工业应用。

 

论文链接: https://www.nature.com/articles/s42256-021-00392-1

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注