Press "Enter" to skip to content

OpenKG开源系列 | 人物百科知识图谱(东南大学)

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

OpenKG地址: http://openkg.cn/dataset/figure-kg

 

GitHub地址:https://github.com/F-period/Open_Chinese_Figure_KG/

 

开放许可协议: CC BY 4.0

 

贡献者: 东南大学(王然,漆桂林,殷春锁,王鹏,金日辉)

 

1、图谱简介

 

以人物为中心的知识图谱可以有效地显示个人信息和人际关系,并进一步支持相关应用。知识图谱上的人际关系搜索系统直观地说明了社会中人与人之间的关系。人立方搜索引擎和搜狗人物知识图谱都是例子,尽管出于隐私因素它们今天已经被禁用。此外,小型特殊的人物知识图可以促进历史和文化研究。在事件分析和书籍阅读任务中,可以构建相关的图形知识图作为一种辅助。

 

百科数据里包含了大量关于人物的信息,可以作为人物知识图谱的数据基础。下图是一个百度百科页面的展示,可以看到,百度百科中具有多模态、结构化与半结构化的多种数据信息。

 

 

目前从百科数据中构建知识图谱的工作大多基于自下而上的方法,这样可能导致构建的知识图谱范围广泛但较为稀疏。而我们的任务选择采用自上而下的方法从百科数据中构建知识图谱,由本体来指导我们的构建过程。且我们提出了一种半自动的本体构建过程,并结合模板和半监督模型,从百科全书中的自由文本中提取有关人物的知识。

 

我们的人物百科知识图谱以百度百科为数据基础,以人物为中心主题,图谱共计 包含 2,480,097 个 人物 实体和 422,612,281 个 相关三元组。 图谱可借助导入 neo4j 数据库形成 图形查询界面,以帮助用户理解和挖掘个人信息和人际关系,也有助于进一步支持相关应用。下图展示了用户使用我们知识图谱时的一个可视化界面。

 

 

2、构建方法

 

我们的任务构建一个特定领域的知识图谱的构建框架的一般过程,而对于我们在工作过程中遇到的每个实际问题,我们给出了一个可行的解决方案。下图展示了图形知识图构建的自上而下的框架。一般来说,该框架可分为数据采集、数据预处理、本体构建、类型推理、知识提取、存储和显示六个步骤。

 

 

在数据采集步骤中,我们构建了由百度百科中的人物实体和相应的网页组成的人物数据集。在数据预处理步骤中,我们对数据进行了初步的标准化和纠错,并通开放信息抽取预提取了一些三元组。在本体构建步骤中,我们利用维基百科确定了本体的类层次结构和属性。在类型推理步骤中,我们为每个实体分配一个类型。在信息提取步骤中,我们从自由文本和表格 中提取关系和属性三元组。在存储和显示步骤中,我们将结果存储在 neo4j 图数据库中。

 

数据预处理部分我们借助开放信息抽取系统。首先,该系统从原始文本中提取三元组。它使用 spaCy 对输入的原始数据进行依赖项解析,并将句子中的主题、谓词和对象提取为三元组。其次,系统选择一些三元组,并推荐给用户进行标签。采用知识表示学习方法 TransE 对三元组进行选择评分。最后,它采用连续整体关系联合学习模型来学习上一步的结果。这些不依照本体、预先抽取的三元组为我们构建本体和补充知识图谱都提供了很好的依据。

 

而为了保证数据质量和节约成本,我们半自动地构建了本体。下图说明了本体构建的过程,它包括决定类型层次、决定属性、决定属性类型、本体融合。在本体融合的过程中,我们参考了 Cnschema.org 。

 

 

在信息提取步骤中,我们自动从半结构化和非结构化数据中提取实体、关系和属性等结构化信息。关键技术包括实体提取、关系提取和属性提取。 除了传统的 HTML 提取和正则模板方法。且我们设计方法单独处理了百度百科页面中的表格数据,将其转换为结构化的 RDF 三元组。我们往往将基于模型的方法和基于模板的方法的结果结合起来,形成最终的结果。在大多数任务中,正则表达式模板的效率高于模型,模型通常起着互补作用。

 

 

最后,我们整合所有提取的结果,并将它们转换为 neo4j 数据库的适当形式。

 

3、成果总结

 

我们的知识图谱基于自上而下的方法构建,并提出了一种包含六个步骤的构建框架。我们首先从百度百科全页面数据集中提取所有人物相关的数据,然后根据维基百科的分类层次半自动构建本体。 图谱最终的 schema 由一个 6 层的 层次结构树构成 ,包含 934 个实体类型和 3,738 个本体属性。

 

 

最终构建的中文开放人物知识图谱 由 2,480,097 个图形实体组成。共提取了 3,482,205 个关系三元组,其中 17,491 个来自非结构化数据,其余来自结构化或半结构化数据。 总 共提取了 419,130,076 个属性三元组,其中 14,232,058 个来自非结构化数据。 下图描述了最终的人物知识图谱的规模。

 

在信息提取的过程 中,我们结合传统的正则表达式模板和基于预训练模型的半监督学习方法,从自由文本中提取三元组,网页中的表格接受特殊处理,提供补充三元组。最后,我们将结果存储在 neo4j 图数据库中,形成一个开放的可视化查询界面。

 

我们的工作有两个主要贡献:( 1 )我们探索了特定领域的开放知识图的过程,并提出了一个新的框架,可以为其他 领域知识图谱 构建工作提供参考。( 2 ) 我们构建了一个具有高数据质量、高信息密度的中文开放人物知识图。我们的工作可以清楚地显示一些重要的个人信息和人际关系,并为相关应用的基础。

 

在未来的进一步版本更新过程中,我们将更新该版本,加入多语言多模态信息,进一步丰富我们的知识图谱。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。