Press "Enter" to skip to content

成为0.01%!利用TensorFlow.js和深度学习,轻松阅读古草体文字

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

大数据文摘出品

 

编译: 李欣月、刘俊寰

 

古文字识别能力是从事历史研究的学者的必备技能,对于日本的历史研究学者而言,他们的挑战则来自于 “古草体” 文字,这种文字 是 古 日本使用频 率最高的文 字之一 ,也将 是他们 科研道路上遇到的第一道关卡。

 

20世纪之后现代 日语逐渐 普及 , “古草体” 因不便在现代印刷体系里使用 ,逐渐被人们遗忘,导致现在即使保存有 数万份 古草体书写的书籍,能够阅读的人也是寥寥 。但是对于现代 的 研 究 者 们 而言, 就算 只 阅读一篇古文资料,也必然会和 “古草体” 文字“大眼瞪小眼”——遇到 “ 语 言障 碍 ”。

 

“古草体”与现代日文

 

因此,阅读 “古草体” 文字的能力就显得格外重要,而目前能够无障碍阅读 “古草体” 文字的人只占了日本全国人数的 0.01%, 这对日本的历史研究相当不利。

 

但也不要太过担心!最近,在谷歌东京事务所的发布会上,就有这幺一个神器亮相,它能帮助你快速识别 “古草体” 文字,阅读 “古草体” 书籍也完全不在话下!

 

数据化处理远远不够,能阅读才是根本

 

在本次主题为“Solve….with AI”的太平洋地区记者发布会上 ,身为 人文开放数据联合使用中心与国家信息学研究所研究员的塔琳 ・卡拉梅特 女士 展示了能够将古日本常用的“古草体”翻译(正确的说法应该是“翻刻”)为现代文字的OCR(KuroNet),并说明了该系统是如何识别“古草体”的。

 

 

塔琳女士手拿“古草体”。本次项目由信息与系统研究机构和数据科学研究(ROIS-DS)、人文开放数据联合使用中心合作完成。

 

声明: 本项AI的开发使用了谷歌技术,可能会让大家误以为是谷歌开发的,实际不然,在此指出并订正。 另外,准确地说,项目的操作内容不是“翻译”而是“翻刻”。 特此声明。

 

 

将明治时代的“古草体”转换为现代日语

 

塔琳 女士还介绍了进行本次项目的原因: “东京神保町的二手书店里面有数千本古籍在售卖,很容易就能买到。 这些文本可能会在海啸或者地震时受损,所以我们对其进行数据化处理,但是数据化之后如果无法阅读也毫无意义,因此就有了利用AI来解决这个问题的念头。 ”

 

 

东京神保町的二手书店里有数千本古籍在售卖

 

 

AI不能解读的地方被做了标记

 

声明: 虽然该项目是“谷歌协作开发”,但是谷歌只是本次活动的主办方,没有协助此次项目开发。 特此声明。

 

利用深度学习和 TensorFlow.js ,开发名为“KuroNet”的工具

 

根据 塔琳 女士的介绍,同先生和团队制作了这个名为“KuroNet”的人工神经网络模型。 该系统利用深度学习(U-Net)来学习国家文献研究博物馆所拥有的“古草体”的数据,然后将“古草体”翻刻为现代日语。

 

 

名为KuroNet的“古草体”,以及将它应用于TensorFlow.js进行特征识别

 

声明: 开始时用的是“国立信息学研究所拥有的数据”,但正确的应该是“国家文献研究博物馆所拥有的数据”。 特此声明。

 

另外此次是利用谷歌提供的TensorFlow.js(在Web浏览器上面就能实行的机器学习库)在Web上面进行逐字识别。

 

把KuroNet类比为谷歌翻译更容易理解。 谷歌翻译APP有一个功能是把图片里OCR识别到的文字转换为其他语言,KuroNet与此类似,把古文本的照片进行OCR识别,转换为现代日语,一页只需2秒,非常迅速,翻刻一本“古草体”书籍大概需要1个小时。

 

 

KuroNet2秒就“翻译”完一页

 

 

“翻译”一本古文需要一个小时,正确率为85%

 

这样进行“翻译”的话正确率为85%。 塔琳 女士说到,“在‘翻译’16本书籍的基础上得出85%这个数据,将来随着数据量增多,学习能力增强,正确性还会提高。 ”

 

另外,在TensorFlow.js提供的Web程序上,能够在线上对 “古草体” 文字逐字识别。 这个工具的开放源码是对公众开放的,今后民间研究者可以利用这个工具阅读 “古草体” 文字的书籍。 阅读 “古草体” 文字书籍的人增多了,就能推进日本历史的研究进程。

 

 

TensorFlow.js提供的Web程序

 

 

开放源码提供

 

在Kaggle 上举办比赛募集 提高OCR识别率的方法

 

根据 塔琳 女士的介绍,信息与系统研究机构和数据科学研究(ROIS-DS)、人文开放数据联合使用中心、国立情报学研究所(NII)、人类文化研究机构、国家文献研究博物馆等主办的名为“识别古草体——揭开日本千年之前的面纱”的比赛正在Kaggle上举行,比赛的目的是为在全球范围内募集提高OCR识别率的方法。

 

参赛链接:

 

https://www.nii.ac.jp/news/release/2019/0710.html

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注