Press "Enter" to skip to content

Nature:数据驱动地球系统科学的深度学习与过程理解

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

2019年,德国马克斯普朗克研究所、美国劳伦斯伯克利实验室等机构的研究者,合作发表于 Nature , 题为 Deep learning and process understanding for data-driven Earth system science 的综述文章(目前总引用已接近1000次)。系统阐述了大数据时代,地球系统科学所面临的挑战与机遇,深度学习方法在该领域的应用案例,存在的问题,以及未来的发展方向。

 

集智俱乐部将组织地球系统科学读书会,自2021年12月14日开始,每周二晚上19:00-21:00,持续时间预计 7-8 周,重点探讨近年来系统科学、人工智能等学科为地球系统科学提供的创新研究方法,尤其是统计物理与深度学习在地球系统科学中的应用,共读前沿文献,激发科研灵感。欢迎从事相关研究、对相关领域有浓厚兴趣的探索者报名参与交流。详情见文末。

 

研究领域:地球系统科学,数据驱动方法,深度学习

 

王硕  | 作者

 

刘培源  | 审校

 

邓一雪  | 编辑

 

 

论文题目:

 

Deep learning and process understanding for data-driven Earth system science

 

论文链接:

 

https://www.nature.com/articles/s41586-019-0912-1

 

 

1. 摘要

 

机器学习的方法已被广泛应用于地球系统中,但是数据中所蕴含的时空信息并非被最优地建模。本文作者认为,与其修补传统机器学习方法,不如使用深度学习模型来自动提取数据中的时空信息,以提高季节性预报和多时间尺度长程空间关联的建模能力。并进一步,构建混合模型,将物理过程建模与灵活的数据驱动建模相结合。

 

 

2. 背景

 

地球科学领域的数据在激增,以 CMIP5 气候模式为例,数据总量已达 3PB,而下一代的 CMIP6 更是达到了 30PB。地球科学的数据也具有大数据的 “4V” 特点:volume (数据体量大) , velocity (更新速度快) , variety (种类多样) and veracity (不确定性高) 。地球科学的研究者需要面临以下两个问题:1. 如何从海量中提取有用信息;2. 在遵循物理规律的前提下,设计可以学到比传统数据同化方法更多信息的模型。

 

 

图1 大数据时代地球科学所面临的挑战

 

 

3. 深度学习在地球学科中的机遇

 

传统机器学习方法受益于特定领域的、手工制作的特征,以表示时空信息,但是往往无法充分挖掘其中的时空依赖。例如在遥感领域,可以输入地形、地貌、纹理等特征来融入空间信息。这种做法类似于早期的计算机视觉,通过边缘、纹理、形状、颜色等特征来表征物体。虽然有好的可解释性,但是也存在冗余,且并非最优的特征表示。而深度学习使得我们不在局限于以上的方法。

 

深度学习在计算机视觉、语音识别、控制等领域取得了巨大的成功,同时也被应用于物理、化学、生物等领域。但是在地学领域尚在初期。在几个关键问题上,比如分类、异常检测、回归、时空依赖状态预测等,已经出现了有前景的应用案例。比如极端天气,飓风的检测,风暴,大气河的分类等。这类方法无需使用主观的人标注的的特征。深度学习通常被分为空间学习 (用于图像分类的卷积神经网络) 和序列学习 (语音识别) ,但是在地学领域,将二者融合的视频/运动预测更受关注,因为这与很多动态地球科学问题有惊人的相似之处,比如大气与海洋的传输,火灾蔓延,土壤运动,植被动力学等。

 

图2给出了典型的深度学习应用任务及其对应的地球科学问题。a. 图像分类与定位对应于极端天气的分类。b. 图像的超分辨可以应用于气候模式的统计降尺度。c. 视频预测类似于地球系统变量的短期预报。d. 语言翻译与动态时间序列的建模。

 

 

 

图2 典型深度学习模型与其所对应的地球科学任务

 

 

4. 深度学习在地球系统科学中的挑战

 

经典的深度学习应用与地球科学的应用有很多相似点,但是也存在许多差异。例如,传统的机器学习任务中,图片只包含红绿蓝三个通道,但是在高光谱卫星中,往往拥有除可见光以外的,数百个光谱通道。这导致变量之间相互依赖,违背了独立同分布的假设。此外,数据还表现出不同的时空分辨率,物理意义,上下文信息和统计等。同时还伴随不同的噪声,不确定性,数据缺失和系统性数据残缺等。此外,数据的光谱、时空维度也给计算带来了挑战。数据的标注也更加困难。例如,如何定义“干旱”是要比 ImageNet 中定义猫狗更难。这导致缺乏足够高质量带标签的训练数据。作者总结了地球科学领域应用深度学习方法的五大挑战:1. 可解释性;2. 物理一致性;3. 复杂且不确定的数据;4. 有限标签;5. 计算的需求。

 

 

5. 与物理建模融合

 

过去,物理建模与机器学习被认为是两个完全不同的科学范式 (理论驱动与数据驱动) 。但实际上,二者可以进行相互补充。前者可解释性、外推能力强。后者对数据的适应性、发现数据规则的能力强。作者给出了如下几种融合方式:1. 改善参数化;2. 用机器学习模型替代物理子模块;3. 分析模型与观测的不匹配;4. 约束子模型;5. 替代模型或仿真。

 

 

图3 物理模型与机器学习模型的耦合方式

 

 

6. 总结

 

深度学习为地球科学提供了有前景的方法,但是也存在挑战。作者为地学领域的深度学习研究提出了以下四点建议:1. 认识到数据的特殊性,建模的时候要充分考虑到数据的多源、多尺度、高维、复杂时空依赖性。2. 模型不仅要准确还要可信,要考虑到物理规律。3. 不确定性估计,模型要给出它们的可信度。贝叶斯、概率推断,应该整合到模型中。4. 针对复杂物理模型测试,模型应该在仿真数据上能够得到同样的结论。总之,作者建议未来的模型应该整合基于过程与机器学习的方法。数据驱动方法并不是替代,而是对物理模型的补充与增强。

 

参考文献

 

[1] Liu Y, Mathis C, Bajczyk D, Marshall M, Wilbraham L, Cronin L. Exploring and mapping chemical space with molecular assembly trees. Science Advances 7, eabj2465 (2021).

 

文章附件中可下载计算分子树和设计新分子的程序。

 

[2] Jacob F. Evolution and tinkering, Science 196, 1161-1166 (1977).

 

[3] Marshall M, et al. Identifying molecules as biosignatures with assembly theory and mass spectrometry. Nature Communications 12, 3033 (2021).

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注