Press "Enter" to skip to content

MASTER:全局上下文建模大幅提高文本识别精度

今天跟大家分享一篇昨天新出的场景文本识别方法MASTER,其发明了一种Multi-Aspect 全局上下文建模方法,有效改进了文本识别精度,在多个数据集上取得了目前最好的精度,是最近最值得读的文本识别方面的论文。

 

该文作者信息:

 

 

作者单位为来自国内的平安产险视觉团队和徐州医科大学。

 

现实中出现的规则和不规则文本示例:

 

 

该文指出,目前基于注意力机制的自然场景文字识别方法在OCR领域取得了很大成果,成功的主要原因是在RNN的框架下,基于注意力的方法可以学习到一维或者二维特征的内在表示。

 

但是这种基于这种局部注意力机制的方法却存在注意力漂移的问题,并且在RNN架构下模型无法高效的并行计算。

 

作者正是想在文本识别中引入全局注意力机制。

 

为了提高模型性能和缓解注意力混淆问题,本文作者(平安产险视觉团队)等人提出了一个更高效和更鲁棒的场景文本识别方法:MASTER。

 

MASTER包括两个核心模块:

 

(1)基于Multi-Aspect的全局上下文注意力机制的编码器;

 

(2)基于Transformer的解码器。

 

今年一种全局注意力模型GCNet被提出:

 

Y. Cao, J. Xu, S. Lin, F. Wei, and H. Hu, “GCNet: Non-local networks meet squeeze-excitation networks and beyond,” ArXiv, vol. abs/1904.11492, 2019.

 

其全局上下文建模模块如下:

 

 

其主要分为Context Modeling 和 Transform 两大部分,并将原始特征图与Transform输出结果融合。

 

该文将其用于场景文本识别的注意力建模,发现如果使用多个注意力函数,可以取得更好的结果:

 

其核心模块如下:

 

 

可见,创新之处在于其含有h个Context Modeling。

 

在解码器部分也有多处改进,主要有:

 

Scaled Multi-Head Dot-Product Attention

 

Masked Multi-Head Attention

 

Position-wise Feed-Forward Networn

 

Loss Function

 

MASTER架构图:(请点击查看大图)

 

 

实验结果

 

作者在常见评价数据集上与State-of-the-art方法进行了比较:

 

 

在 7 个数据集上有 4 个取得了当前最高的精度。

 

(另外3个是52CV曾经向大家重点介绍过的Mask TextSpotter:

 

华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter

 

下表是在 COCO-text test 数据集上的结果:

 

 

可见MASTER在不区分大小写赛道取得了当前第一名的结果,并大幅超越第二名,在区分大小写赛道取得准确率指标第四的好成绩。

 

作者总结称MASTER方法具有如下优势:

 

( 1)模型能够更好的学习输入和输出之间的对齐关系,并且能够在编码器内部学习特征与特征之间的依赖关系,在解码器内部学习目标与目标之间的依赖关系,缓解了注意力混淆问题;

 

(2)模型在公开的基准数据集上取得了SOTA水平,尤其在不规则文本数据集上刷新了准确率,表明其对图片的空间形变不敏感;

 

(3)训练和预测阶段使用了并行计算,更加高效。

 

目前还未发现该文有 开源代码, 不过作者在论文中详细 列出了 关键模块的配置和 PyTorch 实现,应该比较容易复现。

 

论文地址:

 

https://arxiv.org/pdf/1910.02562.pdf

Be First to Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注