Press "Enter" to skip to content

TableNet:用于端到端表检测和从…中提取表格数据的深度学习模型

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

本案例研究基于从扫描图像中提取表格数据。在这些扫描的文档中有大量的非结构化数据,这些数据可以是零售收据、发票、保险索赔等。这些图像通常包含表格形式的信息。

 

问题陈述

 

这些扫描的图像通常是人工处理的,这具有很高的劳动力成本,并且有时还可能存在低效或不准确的数据处理。我们的主要目标是准确地检测表格区域,并从行和列中提取信息。

 

如何使用深度学习来解决这个问题?

 

计算机视觉是人工智能的一个部门,它允许计算机理解和标记图像。我们将有扫描的图像,在计算机视觉的帮助下,我们将从图像中分割出表和列区域。

 

数据概述

 

我们将在旱獭数据集上训练我们的TableNet模型。

 

Marmot data set已经扫描了图像以及它们各自的.xml文件,该文件包含有关表和列坐标的信息。这是一个可免费用于研究目的的公共数据集。

 

业务目标和约束

 

绩效指标

 

我们将使用F1分数作为我们的性能指标。F1分数是准确率和召回率的调和平均值。

为了在图像分割任务中测量精度和召回率,我们将每个预测掩码与每个像素上的目标掩码进行比较。

 

数据集准备和EDA

 

我们总共有509个图像,但是原始数据集中缺少14个注释文件,所以我们将使用495个图像。

对于每个图像,我们都有各自的.xml文件,它将帮助我们找到表和列坐标。

 

此代码片段是上述扫描图像的XML文件。它包含许多元素,如文件名、大小、路径等。通过大小我们可以得到图像的高度和宽度。对于每个表和列,我们都有xmin、xmax、ymin和ymax坐标。

在读取XML文件并获得坐标之后,我们将拥有表和列掩码,如上图所示。我们还将创建一个Pandas数据帧来保存图像、列掩码和表掩码的地址。

从上面的直方图可以看出,我们的大多数图像的高度都在1000以上

我们的图像宽度在800左右。

 

TableNet架构

 

我们有一个VGG-19编码器和两个解码器,一个用于表区域的分割,另一个用于表区域内的列的分割。

 

该模型采用输入图像,并为表和列输出两个不同语义标签的图像。预先训练的VGG-19网络帮助我们学习低级功能。此模型的编码器在这两个任务中都是通用的,但是解码器作为表和列的两个不同分支出现。因此,我们将训练两个计算图。输入图像首先转换为RGB图像,然后将大小调整为1024*1024。

在上面的图像中,con1到pool5是公共编码层。所有五个卷积层在它之后都有最大汇聚层。CONV7_TABLE和CONV7_COLUMN是两个解码器的两个不同分支。在此解码器分支形成后,我们的卷积6层采用REU激活,丢失率为0.8。背后的直觉是列区域是表区域的子集。最后利用Conv2D、Transpose和UpSsaming2D对最终的特征图进行升维,以满足原始图像的尺寸要求。在我们从模型中获得表掩码和列掩码之后,然后使用Pytesseract OCR从原始图像中提取文本。OCR代表光学字符识别。这有助于识别图像中的文本。Tesseract基于神经网络子系统。它在LSTM上进行训练,因为它有助于预测字符序列。

 

数据预处理

 

根据研究文件,我们会-

 

我们将使用TensorFlow的数据加载器来加载数据。

 

我们将使用批次大小1来训练模型。我们的图像是RGB格式,而我们的列和表蒙版是灰度的。

 

模范训练

 

上面是我们使用VGG-19作为编码器的TableNet架构的代码。

从上图我们可以看到,挡路3和挡路4的最大池层串联在表解码器和列解码器中。我们的输出特征地图将与输入图像尺寸相同,即1024*1024。在最终的要素地图中,通道数为2,因为我们有两个类。

 

培训结果

从上面的三个曲线图可以看出,对于训练集和测试集,我们的表掩码准确率都在90%左右,而对于列掩码,我们的表掩码准确率也在90%左右。我们的损失也在每一个时代都在减少。

以下是一些预测。如您所见,我们的模型在预测表和列掩码方面做得非常好。在这些掩码的帮助下,我们将能够从表格区域中提取文本。

使用PyTesseract OCR从预测图像中提取文本-

从上面的图像可以看出,我们的模型在预测表格图像方面做得很好,并且屏蔽了表中没有的所有内容。我们在测试数据点上的F1分数是-

因为我们只有494张图片,所以我们只使用了10%的数据进行测试。我们还计算了所有494张图像的准确率和召回率。

我们可以看到,大约75%的柱形掩模的精度在0.89左右

大约75%的台面罩的精确度在0.91左右

75%的柱面罩召回率约为0.71,最高召回率为0.89

大多数桌上面具的召回率在0.93左右,最高召回率为0.99,这是非常好的。我们可以注意到,我们的模型在检测表掩码方面做得很好,但是对于列掩码,可以通过训练更多的历元来提高准确率。

 

带ResNet编码器的TableNet

 

我们还使用ResNet-50作为编码器实现了TableNet架构。

 

使用ResNet-50作为编码器的结果

 

以下是ResNet-50的结果

我们可以观察到,我们的列掩码不像VGG-19编码器那样精确。

我们的F1分数为ResNet-50作为编码器,与VGG-19编码器在同一范围内。

 

部署

 

模型使用烧瓶部署在本地系统中。

 

视频链接-

 

今后的工作

 

我们这两位模特都只在很少的几个时代接受过训练。在他们的研究论文中,他们已经训练了大约5000个纪元,但由于它需要非常强大的GPU和高计算能力,我无法训练那幺多纪元。在未来,我想用更多的数据来训练它,因为目前我们只在490多张图像上训练了我们的模型。

 

参考文献

 

您可以从我的GitHub回购中查看所有详细信息和代码-

 

在LinkedIn上与我联系-

 

原创文章,作者:fendouai,如若转载,请注明出处:https://panchuang.net/2021/06/22/tablenet%ef%bc%9a%e7%94%a8%e4%ba%8e%e7%ab%af%e5%88%b0%e7%ab%af%e8%a1%a8%e6%a3%80%e6%b5%8b%e5%92%8c%e4%bb%8e%e4%b8%ad%e6%8f%90%e5%8f%96%e8%a1%a8%e6%a0%bc%e6%95%b0%e6%8d%ae%e7%9a%84%e6%b7%b1/

Be First to Comment

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注