Press "Enter" to skip to content

海洋鱼类百科知识图谱(浙江大学)

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

OpenKG地址:http://openkg.cn/dataset/ocean

 

开放许可协议:CC BY-SA 4.0

 

贡献者:浙江大学(徐雅静、邓鸿杰、唐坤、郑国轴)

 

1、背景

 

海洋是生命的摇篮,是人类文明的重要发祥地,在人类社会发展的进程中起着举足轻重的作用。海洋问题一直是国家战略问题。在党的十八大报告中首次提出建设海洋强国的战略目标,并在十九大报告中提出“坚持陆海统筹,加快建设海洋强国”。鱼类作为重要的海洋资源,它含有丰富的活性物质。这些活性物质经加工后可添加到人体食品和药品中。随着海洋鱼类相关物、生物制品和生物材料在国民经济和民生中地位的提高,海洋鱼类的数据在科研、科研以及医疗、渔业等多个领域的科学研究中变得越来越重要。

 

目前,绝大多数海洋鱼类数据库资源集成度不高,造成数据分散,检索效率低下。各种各样的问题将阻碍海洋鱼类的研究。因此,为了促进鱼类在各个学术领域的研究,迫切需要整合现有的研究资料,保护现有的研究成果。基于此,我们的研究团队收集和建立了海洋鱼类数据集,希望为我国鱼类的科普、教育、商业、生产等领域提供帮助。

 

2、数据集简介

 

海洋鱼类百科知识图谱数据包含fish.csv、fishplacerelationship.csv 和 place.csv三个CSV文件。fish.csv 文件中存储的是鱼类基本信息数据集,包含鱼类中英文名称、图片地址、鱼的特性等基本信息,数据量达到 3 万多条,其具体字段信息如表 1 所示。

 

 

表 1 鱼类基本信息数据字段解释表

 

fishplacerelationship.csv 文件存储的是海洋鱼类栖息地数据集,数据量达到 11 万条,其具体字段信息如表 2 所示。

 

 

表 2 鱼类栖息地数据字段解释表

 

place.csv 文件存储的是地理分布数据集,数据量达到 5300 条,其具体字段信息如表 3 所示。

 

 

表 3 地理分布数据字段解释表

 

3、构建过程

 

3.1 数据来源

 

数据来自中文海洋鱼类资料库 http://sea.fundiving.com/, 整个网站包括32070 个鱼类物种,每个物种有一个单独的页面介绍,如图 1 所示。

 

 

图1.中文海洋鱼类资料库中纺锤骨雀鳝部分数据

 

介绍页面中包含中英文名字、界门纲目科属种、别名、简介、大小/重量/年龄、生活习性、物种分布、生物学特性等字段。

 

3.2  数 据标准化

 

每个页面都包含鱼类对应的界门纲目科属种等半结构化数据, 利用 爬虫技术获取 鱼类相关信息,将其保存成Json 格式,如图 2 所示。

 

 

图2.鱼类信息Json格式

 

3.3 关系定义和抽取

 

知识图谱使用三元组进行表达, 例如:实体-关系-实体, 实体-属性-属性值。鱼类名称、英文名、图片地址、界、门、纲、目、科、属、种,这些属于第二种三元组。使用 Json 格式,即键值对,好处之一就是属性和属性值一一对应。在提取的时候,可以直接进行匹配。

 

鱼类实体-地理分布-地理实体这是第一种三元组。由于是一段文本,需要从文中提取地理实体,可以使用 NLP 工具进行抽取,比如 Python 第三方开源库NLPIR、PyLTP、DeepKE 等等。

 

通过传入待处理文本 text,对文本依次进行分词、词性标注、命名实体识别操作。对于有方位的名词,例如西太平洋,需要进行二次处理。抽取效果如图 3所示。

 

 

图3.NLP地理实体抽取效果

 

3.4 知识存储

 

使用 Neo4J 图数据库进行数据的存储,可以快速获得展示和查询功能。帮助开发人员节省时间在业务思考上。按照 Neo4J 数据库官网所给的格式要求存储CSV 数据。可视化效果 如图  4  所示。

 

 

图 4.鱼类地理分布情况展示图

 

4、总结

 

本文主要是对 OpenKG 上发布的中文海洋鱼类百科数据集的介绍。文中详细介绍了数据集的来源、对数据集进行处理构建知识图谱的过程。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注