Press "Enter" to skip to content

论文推荐|Mask TextSpotter:An End-to-End Trainable Neural Network

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

 

本文介绍 2019 年 8 月 TPAMI 录用论文“ MaskTextSpotter: An End-to-End TrainableNeural Network for Spotting TextwithArbitrary Shapes” 的主要工作 。该论文为 2018 年 ECCV 同名文章 [1] 的升级版,主要解决自然场景图像中端到端文本检测和识别问题。

 

52CV曾经解读过ECCV 2018的论文:

 

华科白翔老师团队ECCV2018 OCR论文:Mask TextSpotter

 

一、研究背景

 

随着对于场景理解的需求不断增加,场景文本的检测和识别受到广泛的关注。近几年来,国内外学者通常将场景文本检测( scene text detection )和场景文本识别( scene text recognition )作为两个子方向来研究并取得了突破性的进展。当然,也有许多学者提出了检测和识别协同工作的端到端训练模型,并提出“识别精度依赖于检测精度,并反作用于检测精度的提升”的观点。

 

二、Mask TextSpotter原理简述

 

 

Fig1. Overall architecture

 

Fig 1 是 Mask TextSpotter 的整体网络结构。 Mask TextSpotter 基于 MaskR-CNN[2] ,在 MaskBranch 增加了 CharacterSegmentation 和 Spatial Attentional Module 两个 heads 并进行适当改进而来。 Mask TextSpotte 以 Feature Pyramid Network ( FPN ) [3] 作为主干网络,使用 region proposal network ( RPN )和 Fast-RCNN[4] 回归出检测框。

 

在 Mask branch 中,作者借用语义分割思想,分别分割出任意形状的文本区域和精准的字符区域,并且保留了充分的二维文本特征,在二维特征基础上进行序列识别,最终的识别结果是由字符分割识别和序列识别集成的。可以发现,相比于 Mask TextSpotter- 会议版本,本文基本保持了相同的检测逻辑,其主要创新点在于识别器分支。

 

 

Fig2. Architecture of thestandalone recognition model

 

Fig 2为 本文 识别器的主要结构。在 Mask branch 中,通过语义分割的方式得到精准的字符区域并用 character maps 表示,而后使用一种 pixel voting algorithm 来求得预测结果以及得分。在 Mask branch 的 Spatial Attentional Module ( SAM )支路,直接使用了二维 attention 的方式输出预测结果以及得分,由于在编码部分没有使用循环卷积网络,因此网络对位置信息不够敏感,于是作为 SAM 在解码之前加入了 Transformer[5] 中提及的 Position Embedding 。在 Mask branch 中作者分别从 Character Segmentation 部分和 Spatial Attentional Module ( SAM )部分得到了输出和得分,最终将选择二者得分高的作为预测结果。

 

 

Fig3. Illustration of the pixelvoting algorithm

 

在 Character Segmentation 部分所使用的 pixel voting algorithm 如 Fig 3 所示。将值域在 0 到 1 之间的 character maps 做二值化,论文中阈值设为 0.75 ,然后与特征图相与并计算每一个特征图中高亮区域的平均值,均值得分最高的为预测类别。

 

三、实验结果及可视化效果

 

TABLE 1. The detection results on ICDAR2013 and ICDAR2015.

 

 

TABLE 2. Detection and end-to-end results on COCO-Text. “ AP ”  is short for averageprecision.

 

 

TABLE 3. Results on Total-Text.

 

 

TABLE 4. Ablation experimental results. “ (a) ” means withoutcharacter-level annotations from the real images; “ (b) ” means without weighted edit distance. ∆ means the variationcompared to the original version.

 

 

TABLE 5. Scene text recognition results. “50”, “1k”, “Full” arelexicons. “0” means no lexicon. “90k” and“ST” are the Synth90k and theSynthText datasets, respectively. “Private” means private training data.

 

 

 

Fig4. Results of Mask TextSpotter

 

 

Fig5. Visualization results of the character segmentationmaps and the spatial attention weights

 

从 TABLE 1-3可以看出 ,文章所提方案在 ICDAR2013、ICDAR2015、COCO-Text 以及 Total-Text 上取得了 state-of-the-art 的结果,特别是端到端比之前的对比算法性能提升明显(例如在 ICDAR 2015 上提升了 10.5% )。

 

TABLE 4 验证了所提方案对于字符级别监督以及编辑距离的敏感程度,也展示了相对于会议版本的性能提升。 TABLE 5 可以看到,该方案在识别榜上取得了比较大突破,在 CUTE80 上最为明显。 Fig 4 是任意形状文本检测的可视化。 Fig 5 是 character segmentation 和 spatial attention 的可视化。(更详细内容请参考原文,链接附后)。

 

四、总结及讨论

 

MaskTextSpotter-ECCV版在MaskR-CNN的基础上把原本的Text/Non Text二分类改进为多分类(eg 37类,含字母数字及背景),再加上适当后处理(PixelVoting等)变成了一个简单、有效的端到端方案。由于是在字符级上进行分割及识别,因此可以对任意不规则形状文本(例如曲线文本)进行端到端识别。但此方法的一个局限性是需要字符级的标注来进行训练。

 

MaskTextSpotter-TPAMI相比MaskTextSpotter-ECCV而言,在Mask branch中增加了Spatial Attentional Module(SAM)支路,不在需要字符级标注,可直接预测文本行识别结果,为原本语义不够强、位置信息不够明确的识别器提升了性能,并且SAM的加入可以减少网络对于字符级别监督信息的依赖。

 

MaskTextSpotter使用了语义分割的方法来做文本检测,有利于检测识别任意方向任意形状的文本。

 

五、相关资源

 

Mask TextSpotter-TPAMI 论文地址: https://arxiv.org/pdf/1908.08207.pdf

 

Mask TextSpotter-ECCV 论文地址: https://arxiv.org/pdf/1807.02242.pdf

 

Mask R-CNN 论文地址: https://arxiv.org/pdf/1703.06870.pdf

 

Feature Pyramid Network 论文地址: https://arxiv.org/pdf/1612.03144.pdf

 

Fast R-CNN 论文地址: https://arxiv.org/pdf/1504.08083.pdf

 

Tansformer 论文地址: https://arxiv.org/pdf/1706.03762.pdf

 

参考文献

 

[1] Lyu P, Liao M, Yao C, et al. Masktextspotter: An end-to-end trainable neural network forspotting text witharbitrary shapes[C]//Proceedings of the European Conference on Computer Vision(ECCV). 2018: 67-83.

 

[2] He K, Gkioxari G, Dollár P, et al. Mask r-cnn[C]//Proceedingsof the IEEE international conference on computer vision. 2017: 2961-2969.

 

[3] Lin T Y, Dollár P, Girshick R, et al. Feature pyramidnetworks for object detection[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition. 2017: 2117-2125.

 

[4] Girshick R. Fast r-cnn[C]//Proceedings of the IEEEinternational conference on computer vision. 2015: 1440-1448.

 

[5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all youneed[C]//Advances in neural information processing systems. 2017: 5998-6008.

 

论文原作者:   Minghui Liao*, PengyuanLyu*, Minghang He, Cong Yao, Wenhao Wu, Xiang Bai

Be First to Comment

发表评论

邮箱地址不会被公开。 必填项已用*标注