Press "Enter" to skip to content

香侬聊 | OCR技术在金融领域的应用

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

 

图片文字识别与OCR

 

常被问到一个问题,如何将图片上的文字内容自动识别出来?

 

然后随手去某度指数上看了一下相关词语的搜索指数,发现有此类问题的朋友不在少数。

 

值得注意的是,2017年以前,图片文字识别的搜索量远大于OCR,2017年后,图片文字识别的搜索量和OCR相当。

 

 

为什幺会将图片文字识别和OCR的搜索量进行对比呢?因为 OCR全称光学字符识别(Optical Character Recognition),指利用机器将图像中手写体或印刷体的文本转换为计算机可以直接处理的格式,其典型应用就是图片文字识别。

 

在文章最后部分,我们为大家提供了2款免费软件供大家试用,这2款软件分别是适用于通用场景的“ 火龙果写作 ”,以及适用于金融专业场景的“ PDFact ”,如有需要,可直接跳转至文章末尾进行了解。

 

 

OCR

 

接下来,我们先为大家分享有关OCR的相关内容。

 

对于OCR应用来说,通常分为 专用OCR和通用OCR。

 

专用OCR 即为对特定版式场景进行设计和优化,以达到最好的识别效果,典型应用为各种证件识别、车牌识别,这类识别物通常版式一样,格式固定。

 

 

(图片来源于网络)

 

通常这类应用是将上面的关键信息进行识别提取,比如:

 

姓名:付*

 

性别: 男/M

 

出生地点: 河北/HEBEI

 

出生日期: 12 NOV 1987

 

签发地点: 山东/SHANDONG

 

签发日期: 11 2月/FEB 2024

 

……

 

另一类则为 通用OCR ,这类识别物,有时虽属同一类别,但却有很多不同样式,比如保险单或者合同,每一家公司的样式都不一样,难以通过固定的版式进行优化。

 

 

(图片来源于网络)

 

识别内容如:

 

保险合同号码:******

 

合同生效日期: ***** *

 

投保人: ******

 

被保险人: ******

 

身故受益人: ******

 

收益比例: ******

 

……

 

在简单环境下,专用OCR的识别准确率非常高,通用OCR的识别准确率也不错,但不管是专用OCR还是通用OCR的识别准确率在复杂场景下,都会经常存在图片背景丰富、亮度不均衡、光照不均衡、残缺遮挡等问题。

 

对于图片上的文字来说,常见文字弯曲排列、曲面异形、倾斜分布、褶皱变形、残缺不全、问题多样等,这些都给OCR识别的准确率带来了很大的挑战,准确率还需要提升。

 

因此,随着2017年之后人工智能技术得到快速发展,对OCR相关技术的探索也仍在继续,下面,就为大家具体介绍一下香侬科技的技术解决方案。

 

 

香侬OCR解析系统

 

概述

 

OCR本质是图像识别,从整体上来说,OCR一般分为两大步骤: 图像处理以及文字识别 。

 

香侬科技的具体解决方案包括四步,分别为“特征提取”“文字定位”“光学识别”和“语言模型”,其技术路线如下图所示:

 

 

特征提取 :针对图像的成像问题进行修正并从中提取特征,常见的预处理过程包括:几何变换、畸变校正、去除模糊、图像增强和光线较正等。

 

文字定位 : 检测文本所在的位置、范围及其布局,便于精准识别文字。

 

光学识别 : 在文本定位的基础上,对文本内容进行识别,即将图像中的文本信息转化为可以编辑的文本格式。

 

语言模型 : 在识别出若干候选文本后,使用语言模型对光学识别所得到的文本进行后处理矫正,从而进一步提升OCR的效果。

 

这样的管线模式可以很好地细分OCR的每一个处理步骤都相对独立开发,从而便于优化不同的处理细节。

 

同时,基于深度学习的模型相比传统的基于图像处理方法的技术具备更强的应对复杂场景的健壮性,如模糊、扭曲、畸变、复杂背景、光线不清等典型图像问题。

 

以下为香侬OCR系统详细解决方案介绍。

 

文字定位

 

文字定位是要在整个输入的图像中找到文本所在的区域,因为在图像中,大部分的内容仍然是背景和前景等信息,这些信息的引入会对OCR造成极大的干扰,因此需要首先精准定位到文本所在区域,然后再识别图像文本区域内的文本内容。

 

文本定位有两种模式:单字检测与文本行检测,前者是分别定位一个一个的字在的区域,后者是直接定位一行文本整体的区域。

 

香侬OCR解析系统使用了基于文本行的策略,这是因为:

 

金融领域的文书大部分都是完整的文本行,以及少量排列较为整齐的手写体识别;

 

文本行检测可以避免文字的局部被误测,尤其是在中文语境下,基于单字的检测容易将偏旁识别为文字,造成大量复杂的后处理步骤;

 

相对来说,单字检测模型,更适合含有稀疏的、大小多样、文字旋转剧烈的图片,比如商品照片中的商标识别等,而文本行检测模型,适合含有排列密集、大小相似、文字无旋转或轻微旋转的图片,显然,金融领域的文本大部分属于后者。

 

下图是单字检测和文本行检测的示意图,显然,对于比较规范的整行文本来说,文本行检测效果更好。

 

 

在具体的文字定位实现上,不同于传统的基于包围盒(Bounding Box)与语义分割(Semantic Segmentation)的方法,我们使用了PSENet模型实现文本区域的检测与定位。

 

如下图所示,图(b)中基于包围盒的方法不能定位弯曲的文本块,而图(c)中基于传统语义分割的方法又不能将距离很近的文本区分开。相反,图(d)中基于PSENet的方法可以很好地检测复杂场景下的文本行。

 

 

(图源:https://arxiv.org/abs/1806.02559)

 

PSENet的核心是基于广度优先搜索逐渐扩大文本行区域。它首先使用一个特征金字塔FPN网络得到图像的特征,然后再基于此特征求出第一个文本行区域,如下图(a,b)所示。

 

 

(图源:https://arxiv.org/abs/1806.02559)

 

但显然,此时的文本行没能精准覆盖真实的文本行,所以接下来需要渐进地扩大文本行区域。具体的做法是,对每一个连通区域(每个连通区域都代表了一行单独的文本行),使用广度优先搜索(BFS)将它向四周扩展,从而使得原来较小的文本行逐渐扩大,如上图(g)所示。在经过几轮迭代后,所有的文本行最终都能够正好覆盖各自真实的文本行,如上图(c,d)所示。

 

PSENet相比其他的基于深度学习的文本定位模型而言,有着更好的处理复杂场景如文本密度过高、图像中文本的形状扭曲等,这对金融行业中保单、发票、收据凭证等图像数据的OCR至关重要。

 

光学识别

 

光学识别或文本识别是在定位到图像中的文本区域之后,将图像格式的文本转化为计算机可编辑的文本格式的文本。

 

香侬科技使用前沿的深度学习CRNN模型结合CTC Loss算法完成光学识别。CRNN+CTC的OCR光学识别流程如下图所示。首先将定位到的图像文本区域送入模型,之后使用卷积层(Convolutional Layers)对输入进行编码,使其具备文本特征感知能力,得到一个锚点(Anchor)序列。

 

再将得到的锚点序列送入到循环层(Recurrent Layers)中,建模锚点的概率分布;最后使用CTC(Connectionist Temporal Classification)损失与动态规划算法解码得到最优的文本,即是光学识别的结果。

 

 

卷积层和循环层分别基于特征金字塔网络(FPN)和双向长短时记忆网络(BiLSTM)实现,而CTC则是一种基于动态规划的优化算法。

 

使用CTC的原因在于,在文本识别的时候,我们不可能准确的框住每一个字然后去识别,而是需要用一个个很小的锚点(Anchor)去进行识别,这时候,输入的锚点序列远长于识别出的字符序列。

 

CTC解决这一问题的方法是,在标注符号集中加一个空白符号“-”,然后利用循环层进行建模,最后把blank符号和预测出的重复符号消除。比如有可能预测得到“–a-bb”,在消除了空白符号“-”和合并连续相同符号“b”之后,就得到了对应序列的文本序列“ab”。

 

该方案的优点在于结合了三种不同模块的优势:卷积层编码图像特征,循环层编码文本特征,CTC输出识别结果。

 

CRNN+CTC的光学识别模型在图像和文本中形成了可以沟通的渠道,使得图像信息转化为文本信息的过渡更加平滑,对复杂场景下的文本识别也有更强的健壮性。

 

语言模型

 

在经过文字定位与光学识别两个步骤后,我们就能够得到图像中的文本信息。然而,如此得到的结果可能还会出现很多错误。

 

如下图所示,原始的文本是“蚂蚁金服即将上市”,但由于原始图片文本排列过于密集或图像质量不高等原因,光学识别的结果变成了“蚂虫义金服既将上市”,如果直接将其返回就会为用户使用、业务处理带来困扰。

 

为此,我们将光学识别得到的结果,如“蚂虫义金服既将上市”进行语言模型的处理,即首先送入一个编码器,然后再通过一个解码器重构到真实的原始文本“蚂蚁金服即将上市”,从而矫正光学识别的错误。

 

 

最后,OCR系统最后反馈语言模型输出的结果给用户,就完成了整个OCR处理流程。

 

除了算法方面的优势外,香侬科技OCR系统还有另一显着优势,为数据优势。

 

搭配香侬科技自研的PDF解析与信息抽取平台,系统能够自动地从实时金融数据中生成海量的增量平行数据,以在线学习的方式不断更新优化OCR和语言模型。

 

不但保障了深度模型所需的数据量级(百万级),还避免了如此庞大数据量下的人工标注开销,缩短模型迭代周期,保持模型线上效果。

 

下图是香侬科技PDF/OCR解析平台的主界面,智能应用提供了PDF/OCR解析功能,可处理文件格式包括Word文件、标准PDF文件、PDF扫描件、图片等,图片具体格式包括word、pdf、jpg、jpeg等。

 

模型训练支持开发人员喂入不同的数据进行OCR模型的训练。整个平台实现了从数据到模型,模型到应用的完整业务链,同时便利了用户使用与模型技术开发。

 

 

总的来说,香侬OCR解析系统有如下独特优势:

 

数据优势 :香侬OCR解析系统基于百万级金融领域的语料训练,囊括银行、保险、投研、证券等多个细分领域。此外,基于香侬PDF解析与信息抽取平台,香侬OCR解析系统可以实时获取海量金融数据并实现自动化数据标注,极大降低了人工标注的消耗,同时也提高了数据处理的效率。

 

算法优势 : 香侬OCR解析系统在前沿的深度学习算法上,针对金融领域的数据与业务特点进行了完善,一方面可以利用深度学习泛化性健壮性强的优势,另一方面又契合金融领域的实际业务场景,算法与业务双向拟合,助力OCR赋能更多金融场景。

 

训练优势 : 香侬OCR解析系统在香侬科技自研的ShannonPAI分布式深度学习训练平台上训练与测试,轻松驾驭百万级的海量金融数据规模,大幅缩短OCR模型迭代周期,能在短时间内适配到新的业务中,给予用户更为及时的业务反馈。

 

模型优势 : 市面上已有的OCR系统往往会针对简体中文、繁体中文和英文以及标点训练单独的模型,而香侬OCR解析系统将上述不同的场景统一到一个OCR模型中,无需在不同的场景下调用不同的模型,简化业务逻辑,提高模型运行时效率,进而改善用户使用体验。

 

在本方案中,香侬OCR系统提供了从数据输入,到算法处理,再到结果后处理的全套OCR技术模块,在香侬科技的PDF与信息抽取平台的协同下,香侬OCR系统能够实现数据增量在线学习,从而自动化地完成模型迭代与更新,进而能够在各种业务上快速搭建与部署,提供更好的用户使用体验。

 

 

香侬OCR应用

 

以下就是香侬目前推出的2款免费应用,主要针对通用场景和金融专业场景的不同需求,可以解决有关PDF以及OCR的应用问题。

 

火龙果写作

 

桌面版链接为: https://www.mypitaya.com/?bd_source=pb。

 

手机端和pad端直接搜索“ 火龙果写作 ”即可,里面免费提供了图片文字识别的功能。

 

点击页面左侧“收藏”按钮,进入页面后,上传所需处理的图片或者PDF文件,再点击右侧的“图片转文字”按钮,即可进行OCR识别。

 

 

 

以下为识别结果。

 

 

PDFact

 

链接为: https://www.jianweidata.com/PdfactDownload。

 

PDFact是 一款针对金融领域设计的智能PDF阅读器, 旨在为大家使用金融领域中 PDF 相关文件上的事实内容,提供更为便捷的服务。 (注: 目前仅提供windows版本下载)

 

 

目前PDFct主要提供2方面的的服务,第一方面是结 构化表格信息的获取,要想提取表格内容,只需按快捷键 Ctrl+T 进入「表格模式」,即能看到页面上的表格被蓝色高亮线条组成的可交互表格覆盖。

 

随后就可以像操作 Excel 一样,任意选取表格区域内的一个或多个单元格进行复制。整个表格完整复制到 Word / Excel 也不在话下。

 

 

第二方面是可以进行信息发现, 很多时候,PDF 文档中会包含一些对于阅读者而言不了解或者需要补充的信息点。

 

譬如新能源汽车中“磷酸铁锂”和“三元锂”电池路线之争,两个词都是专业术语,对一般读者而言比较生僻; 又譬如公告中提到一家供应商公司的名称,读者需要额外了解供应商的股东信息。

 

考虑到PDF阅读器一般是一个沉浸式的独立窗口,当读者遇到上述类似的问题时,可能就需要打开浏览器进行查询,这便跳出了原本的阅读过程、打断了阅读体验。

 

鉴于此,我们在PDFact中置入了 「信息发现」 这个功能。 在目前版本中,PDFact支持您在阅读器内打开边栏查看与文档内容相关的 百度百科、上市公司信息 和 企业工商信息 。

 

点击文档中下划线标记的信息点,蓝色对应百度百科、红色对应上市公司信息

 

 

或在「文本选择」模式下(非表格模式),用鼠标划线任意选取术语、人名、公司名称,在弹出的菜单中选择查询百科或查询工商。

 

 

此次香侬聊为大家分享了有关OCR相关的内容,接下来我们将为大家介绍通用智能问答的相关内容。

 

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注