Press "Enter" to skip to content

开源开放 | 中国近代历史人物知识图谱

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

OpenKG地址:http://openkg.cn/dataset/zgjdlsrw

 

项目地址:http://www.zjuwtx.work/project/kg

 

开放许可协议: CC BY-SA 4.0 (署名相似共享)

 

贡献者:浙江大学(王天笑)

 

1、引言

 

中国近代历史涌现了⼤量的杰出⼈物和事迹,史料文献丰富,构成了一个庞⼤的知识体系。本项⽬旨在收集挖掘中国近代历史⼈物信息,构建⼈物及其相关实体的知识图谱,为历史资料的检索和研究⼯作提供帮助。

 

2、知识图谱构建

 

2.1 数据来源

 

中国近现代历史⼈物信息主要来源于 百度百科 和 历史记 两个⽹站。通过 python scrapy 爬⾍获取了 近1300位⼈物的结构化数据,半结构化数据和⽂本数据。其中,结构化数据主要包含⼈物的姓名、字号、出⽣地、⽣卒年⽉等信息;半结构化数据包括⼈物间的关系、历史成就等;⽂本数据主要是⼈物的生平介绍、评论等,有⽹站负责编辑维护,语⾔描述和记录的史料不⼀定完全准确。

 

2.2 数据处理

 

2.2.1 半结构化数据处理

 

数据变换:从半结构化数据中提取信息,转化汇总成相同的格式,例如

 

数据清理:将明显不正确的信息删除,例如

 

数据集成:整合两个数据源的数据,如果有不一致,直接删除

 

2.2.2 文本数据处理

 

项目尝试了基于语义⻆⾊标注和基于深度学习的实体关系抽取⽅法。

 

(1)基于LTP语义角色标注的实体关系抽取

 

LTP(Language Technology Platform)是由哈尔滨工业⼤学开源的中⽂⾃然语⾔处理⼯具,用户可以使⽤这些⼯具对于中⽂⽂本进⾏分词、词性标注、句法分析等等⼯作。Github: https://github.com/HIT-SCIR/ltp

 

使⽤LTP提供的语义⻆⾊标注分解句⼦:

 

 

上述例句被分解为了中⼼语(动词:加⼊),主语A0(王俊昌),宾语A1(中国共产党)和时间状 语ARGM-TMP(1943年2⽉)。通过构建基于语义⻆⾊标注的规则,可以从⽂本数据中提取符合规则的关系,准确度较⾼。但规则构建依赖⼈⼯。

 

(2)基于OpenUE的实体关系抽取

 

OpenUE 是⼀个轻量级知识图谱抽取⼯具,⽤于基于预训练语言模型的知识图谱抽取任务。Github: https://github.com/zjunlp/OpenUE

 

使⽤OpenUE⼯具包和默认ske数据集训练并执⾏抽取。在简单句⼦中准确率较⾼,但是在所有⽂本 数据中的表现并不理想。原因可能是⽂本语句通常⽐较复杂,且句⼦间存在上下⽂关联的情况。例如主 语缺失等。

 

(3)基于OpenNRE的人物关系抽取

 

OpenNRE 是⼀个开源且可扩展的工具包,它提供了一个统⼀的框架来实现关系提取模型。项⽬尝 试使⽤基于OpenNRE的中⽂人物关系抽取,Github: https://github.com/taorui-plus/OpenNRE

 

按照上述Github项⽬的描述训练模型并执⾏关系提取任务,结果同样在简单句型中表现良好,但在 多数复杂句型中出现了遗漏和错误。 综上所述,出于准确度、史实正确性优先的考虑,项目最终使⽤了基于语义⻆⾊标注的实体关系抽 取⽅法。

 

3、知识图谱存储

 

项目基于neo4j图数据库存储实体关系数据。实体对象共3类:⼈物,组织(学校),成就(作品)。其中人物包含属性:名称、附加名称、出⽣地、出⽣⽇期、死亡⽇期、⼯作职责、名族、国籍(在华外籍⼈物)。实体关系共3个⼤类:相关⼈物、毕业于、创作。相关⼈物可细分为7个⼦类,21个具体关系,如下图所示:

 

 

4、知识图谱应用

 

项目最终成果使⽤BS形式部署上云。后端打包为Docker镜像部署到阿⾥云ECI,前端部署到阿⾥云CDN。可以访问 http://www.zjuwtx.work/project/kg 查看。

 

4.1 人物检索

 

基本的⼈物检索功能,查看⼈物属性以及与其他实体间的关系。

 

 

4.2 图谱推理

 

基于规则的图谱推理,通过⾃定义Cypher脚本实现。包括关系推理和属性补全。

 

4.3 知识众包

 

考虑到数据来源有限,同时数据内容以及数据处理过程不可避免地会存在⼀些问题,导致了图谱知识的缺失和错误。项目提供了知识众包功能,所有⽤户可以快速提交新增、修改数据的请求,在审核通过后会合并到现有的知识图谱中。

 

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注