Press "Enter" to skip to content

开源开放 | 多模态地球科学知识图谱GAKG

OpenKG地址: http://openkg.cn/dataset/gakg

 

网站地址:https://gakg.acemap.info/

 

论文地址:https://dl.acm.org/doi/10.1145/3459637.3482003

 

开放许可协议: CC BY-SA 4.0 (署名相似共享)

 

贡献者:王新兵,张伟楠,邓程等上海交通大学Acemap团队成员,深时数字地球大科学计划团队

 

1、背景

 

地球是一切生命的摇篮,也是人类赖以生存的家园,研究地球的自然科学称为地学,包括地理学、物理学、化学等学科。纵观历史,古生物学家研究从 46 亿年前至今地球上各物种的特征和环境演变,探索环境变化对生物多样性的影响地理学家研究地形、土地形态和气候,发现人类生活引起的全球变暖与地轴飘移有一定关联。地质学家探索海洋,为人类带来更重要的资源,如稀土矿物。由此可见地学在学术领域中扮演的角色不仅让我们了解人类与地球的关系,也帮助我们了解当前 的变化。

 

目前,地学的数据库资源集成度较低,学术知识图谱比较稀少,且往往是概念级的,只是简单地让每个实体代表一个地理对象。与其他学科不同,地学数据包含大量丰富的地理位置、地质时间尺度和反映地学多模态的地图。因此这种文献计量学信息无法综合反映地学学术数据,文章中离散的图像、文本和时间尺度也没有得到充分耦合。这一现状可能阻碍地学的研究。为解决上述问题,上海交通大学Acemap研究团队背靠DDE项目设计了一个新颖的地球科学多模态学术知识图谱GAKG ,希望能为地学领域、数据挖掘和信息检索领域的研究者们提供数据和服务。

 

2、数据集简介

 

如前所述, GAKG 是 ⼀ 个 ⼤ 型多模态学术知识图谱,其中所有的数据均来 ⾃  AceMap (https://www.acemap.info/ )。GAKG的模式图由11个概念和19个连接概念的关系组成。每一个实体都有一个概念与之对应,并且具有一定的属性。具体概念相关信息如表 1 所示。

 

 

表 1 概念及其含义、属性和数量

 

关系也可以被视为概念的对象属性。具体概念相关信息如表 2 所示。

 

 

表 2 关系及其解释和数量

 

3、构建过程

 

3.1 知识实体抽取

 

GAKG提出了Human-In-the-Loop方法来进行知识实体抽取。我们首先提出5个问题,分别对应5种知识与论文之间的关系,随后利用基于ERNIE的模型框架训练机器阅读理解模型,用于对所有论文找出每篇论文对这5个问题的答案,最后将其与知识实体联系起来。具体信息见表3。

 

 

表 3 问题及其对应的关系和数量

 

3.2 地球科学知识本体

 

在资深地球科学家的帮助下,我们结合维基百科的分类和AceMap界定的学术领域之间的关系,构建了地球科学知识的层次结构。GAKG认为学术知识图谱的本体是学术的知识体系,实例为一篇篇论文。

 

3.3 地理位置信息提取

 

地理位置的数据主要来自于配图和论文中提及的文本。对于地理插图,我们首先通过pdffigures2进行图片抽取,随后使用PaddleOCR进行文本识别,再通过geocoder生成坐标并从插图中的数字提取经纬度范围。OCR识别的一个例子如图1所示。对于地理/社会/政治实体,我们构建了基于BERT的命名实体识别模型,并通过geocoder得到坐标。

 

 

图 1 插图坐标提取的一个例子。(a)为OCR结果,(b)高亮了识别错误

 

3.4 地理年代信息提取

 

我们开发了基于规则的增强信息提取方法,提取了论文标题、摘要和导论中提到的地理年代信息的实体。根据地理时代词在论文中的位置以及前后出现的词,计算置信度得分并选取达到一定阈值的。论文的地址时间尺度分布如图2所示。

 

 

图 2 随地质时代的论文分布

 

4、地学应用

 

地球科学的探索,是将各学科知识落实在地球未知的区域、未知的时代和未知的领域中。我们面向对地球科学知识有一定研究和专业背景人员,基于全域地学知识图谱,提供学科或主题科技资源的语义信息检索和知识发现服务,支撑大数据-大知识双轮驱动的地学创新研究。

 

一个创新的研究,要对学科领域的论文进行充分的调研,地学也是如此。我们对此给出多模态的地学语义搜索系统。区别于谷歌学术等学术搜索引擎,GAKG-Search基于GAKG的地学文章知识点和提及的关键要素进行语义层面的相关性匹配,并返回论文及论文涉及的图片、表格、时代以及地理位置信息,弥补了关键词匹配式搜索忽略了语义信息的缺点。

 

 

一个学术的探索,要对领域的知识体系有全面的认识,并且也要清楚了解知识体系中的各类知识点涉及的论文、年代和地理位置信息。GAKG-Navi提供了由地学专家人工挑选的地学全知识体系的可视化,同时每个知识点关联了相关的论文、图片、表格、百科知识和数据集,并对相关的文章给出机器生成的总结摘要。用户可以在此独特的系统中进行知识点的遨游和穿梭。

 

 

 

在进行地学知识的探索过程中,要对文献在世界上的分布有充分的认识,GAKG-PaperOnTheMap提供了基于Paper关联POI的数据,每篇文章谈论涉及若干地点,本系统通过GPE抽取和经纬度坐标抽取将论文与地理信息系统关联起来,联同论文谈论的年代信息,给学者以时空维度的论文检索体验,方便学者对地学知识进行探索。

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注