技术综述十六：自然场景文字检测与识别--相关工作-伙伴云

技术综述十六：自然场景文字检测与识别--相关工作

网友投稿 814 2022-05-30

自然场景文字近年来得到了学术界和工业界的广泛关注，获得了长足的发展。本文将针对自然场景文字检测、自然场景文字识别、自然场景端到端文字识别这三个主流任务的研究现状分别展开介绍。

1. 自然场景文字检测相关工作

自然场景文字检测任务的目标是定位图片中的文字。它通常是文字识别的前置步骤，也是最重要和最具挑战的步骤之一。现有的自然场景文字检测算法按照对复杂形状文字的适应能力可以粗略分为两类：水平文字检测算法和多方向文字检测算法。

1.1. 水平文字检测算法

该类算法主要使用水平矩形框来定位文字。早期的水平文字检测算法大致可以分为基于纹理的算法和基于连通区域的算法。随着深度学习的发展，卷积神经网络也被逐步用于文字检测算法中。

首先是使用颜色、尺寸、距离等离散的手工特征的文字检测算法。比如 Zhong 等人 [22] 提出了两个在复杂颜色图片中自动检测文字的方法。第一个方法将图片分割成统一颜色的连通成分，然后使用尺寸、对齐、距离等信息选择可能包含文字的成分。第二个方法计算灰度图像中的局部空间变化，然后根据变化量定位文字区域。这两种方法的结合能够进一步提升文字检测的效果。

接下来，是使用更具结构化特征描述的文字检测算法。 Neumann 和 Matas [26] 提出首先使用最大稳定极值区域 [33] （ Maximally Stable Extremal Regions, MSERs ）进行字符区域的提取，然后使用一个字符分类器对提取出来的字符区域进行字符和非字符的分类以过滤字符区域，最后通过一些几何约束和规则将字符区域连成文字行。

随着深度学习的发展， Wang 等人 [34] 提出使用卷积神经网络结合滑动窗算法进行文字检测和文字识别。具体地，他们使用多尺度的滑动窗对图片进行扫描，然后使用卷积神经网路对每个滑动窗的区域进行分类。该方法是首个使用深度学习进行自然场景文字检测与识别的算法。

随着目标检测算法的发展， Jaderberg 等人 [35] 提出了一套类似 R-CNN [36] 框架的文字检测算法。首先，他们使用边缘盒 [37] （ Edge Boxes ）和聚合通道特征 [38] （ Aggregate Channel Feature, ACF ）这两个区域提取算法来提取候选文字区域；然后对提取出来的候选文字区域利用梯度直方图 [39] （ Histograms of Oriented Gradients , HOG ）进行特征描述；接下来，他们基于方向梯度直方图特征使用随机森林（ Random Forest ）分类器对候选文字区域进行过滤；最后，使用一个卷积神经网络对文字区域进行位置回归，提升文字区域的准确度。

Gupta 等人 [40] 沿用了 Jaderberg 等人 [35] 提出的框架并将其候选区域的提取部分进行优化。他们使用一个基于合成数据训练的 YOLO [41] 目标检测模型来提取文字区域候选框。这些候选框将经过一个分类器和回归模型形成最终的检测结果。

考虑到文字的上下文信息， Tian 等人 [42] 提出使用滑动窗算法结合双向循环神经网络进行文字检测。具体地，他们使用滑动窗对特征图中的每一行进行从左到右的扫描，同时对每个滑动窗的当前扫描的区域进行分类和回归。该方法在分类和回归时使用一个双向循环神经网络建模上下文信息。该方法假定文字是按水平方向从左到右排列的，因此只能检测水平或者接近水平的文字。

上述的大部分文字检测算法的发展历程可以归纳为从离散的手工特征表示，到结构化的特征，再到深度特征的表示。该类文字检测算法受限于其水平矩形的包围框表示，难以准确地检测复杂形状的文字。

1.2. 多方向文字检测算法

该类算法通常使用旋转矩形框或者四边形来描述文字实例的位置。相比水平文字检测算法，其具有更强的形状鲁棒性。

早期的多方向文字检测算法主要考虑的是特征的旋转不变性。 Yao 等人 [43] 提出使用两个旋转不变的特征集合实现多方向文字检测。第一个特征集合是组件（ Component ）级别的特征，比如计算特征前估计的中心、尺度、方向等信息。第二个特征集合是链（ Chain ）级别的特征，比如尺度变化、颜色相似度、结构相似度等。这两个特征集合具有很强的互补性并同时具有旋转不变性，因此非常适合用于多方向文字检测。

随着基于全卷积网络的语义分割模型的出现， Zhang 等人 [44] 提出使用全卷积的分割网络结合最大稳定极值区域算子进行多方向文字检测。他们首先使用一个全卷积的分割网络分割出大致的文字区域，然后使用基于最大稳定极值区域的后处理算法对文字区域进行分行和分词。该算法是首个基于全卷积分割网络的文字检测算法。一方面，由于当时的全卷积分割网络的精度较弱，只能分割出大致的文字区域，需要较为复杂的后处理算法对分割结果进行进一步的解析；另一方面，该算法的后处理算法具有一定的局限性，设定了一系列的先验，需要根据数据集进行调整。

考虑到直接检测极端长宽比的文字实例对卷积的感受野要求较高， Shi 等人 [45] 提出使用文字片段及其连接关系进行多方向文字检测。他们使用一个文字片段检测器检测出文字片段并预测出片段间的连接关系，然后使用后处理算法将属于同一个单词或者文字行的片段连接起来形成对应的文字包围框。该算法得益于直接检测目标为文字片段而非完整的文字实例，可以较好地缓解卷积神经网络的感受野受限的问题，有利于极端长宽比的文字检测。但是，该算法的后处理步骤引入了两个阈值超参数，需要针对不同的数据集进行网格搜索以达到最优的精度。

为了进一步简化文字检测的流程， EAST [46] 使用一个 U 型结构 [47] 的网络基于相同的特征图对特征图上的每一个单元进行文字非文字的分类和旋转矩形的回归，然后使用加权的非最大值抑制算法来合并预测框。它采用了 PVANet [48] 作为骨架网络以达到更好的精度和速度的平衡。该方法能够检测多方向文字，但是难以处理极端长宽比文字和曲型文字等不规则形状文字。

同样为了简化文字检测的流程， DMPNet [49] 基于一个通用目标检测算法提出了采用不同方向的矩形默认框配合基于蒙特卡罗（ Monte Carlo ）的四边形默认框匹配策略以检测多方向文字。此外，它还采用了 L n 范数损失函数来优化训练。

这些多方向文字检测算法存在一些不足。一是它们大多数需要比较复杂的后处理步骤。针对不同的自然场景文字数据集，它们往往需要重新调整超参数。二是它们难以精确地检测不规则形状文字比如曲型文字。

2. 自然场景文字识别相关工作

自然场景文字识别的发展大致可以分为三个阶段。第一阶段是基于字符识别的文字识别算法；第二阶段是基于单词分类的文字识别算法；第三阶段是基于序列到序列识别的文字识别算法。

2.1. 基于字符识别的文字识别算法

深度学习之前的自然场景文字识别方法主要是基于字符识别的文字识别算法。它们通常先定位字符，然后对字符区域建立特征表示，再通过分类器进行字符分类。这类方法的一个代表是工作是 Bai 等人 [30] 。他们提出了一种多尺度的特征表示“ Strokelets ”并结合方向梯度直方图特征，再使用随机森林分类器对特征进行分类。基于字符识别的文字识别算法的优点是较为灵活，不受限于单词的长度且对数据的词汇表没有太强的依赖。然而，这类方法对字符定位的精度要求较高。

2.2. 基于单词分类的文字识别算法

基于单词分类的文字识别算法即将每一个单词看作一个类别，直接对文字图片进行分类。 Jaderberg 等人 [50] 提出了将文字识别问题看作图片分类问题。他们使用了一个深度卷积神经网络对文字图片进行分类。其类别数高达 9 万多，覆盖了常见的英文单词。在大量合成数据的训练下，该模型取得了不错的识别效果。得益于大数据驱动和深度卷积神经网络的优异的性能，该模型在标准数据集上的精度大幅超过了之前的文字识别方法。但是，这类文字识别算法的缺点是受限于预先设定的词汇表，无法识别词汇表之外的单词。

2.3. 基于序列到序列识别的文字识别算法

这类文字识别算法将文字识别问题看作一个序列到序列识别问题，是当前自然场景文字识别的主流方法。

该类文字识别算法的一个代表作是 CRNN [51] 。它是一个结合卷积神经网络、循环神经网络和联结时序分类 [52] （ Connectionist Temporal Classification, CTC ）损失函数的可端到端训练的文字识别模型。首先，它使用卷积神经网络提取文字图像特征，并通过卷积和池化操作将其转化为一维的特征序列；然后，它使用循环神经网络结合联结时序分类对该特征序列进行序列到序列识别。相比基于字符识别的文字识别算法，该方法无需提前对字符进行定位；相比基于单词分类的文字识别算法，该方法不需要预先定义词汇表。但是，该方法假定文字的排列方式为较为严格的从左到右排列，因此只能识别水平方向或者接近水平方向的文字。

对于不规则形状文字识别， Shi 等人 [53] 提出了将空间变换网络 [54] （ Spatial Transformer Network , STN ）集成入序列到序列识别网络中。空间变换网络能够根据识别模型的反馈自动学习如何对输入图片的特征进行矫正。经过空间变换网络矫正的特征再通过一个基于注意力机制的序列到序列识别模块进行文字识别。得益于空间变换网络的引入，该方法能够处理不规则形状文字。

Bai 等人 [55] 发现对于基于注意力机制的序列到序列的文字识别算法存在真值序列和注意力输出序列概率分布的误对齐问题。这种误对齐是由缺失或者多余的预测字符造成的。字符序列越长，产生误对齐错误的概率越大。为了解决这个问题，他们提出了基于编辑概率的方法。他们在损失函数中不仅考虑概率分布，还考虑了字符缺失和字符冗余的可能情形。

为了解决多方向文字识别问题， Cheng 等人 [56] 提出先将输入图片编码为四个不同方向的特征序列，再基于序列到序列的识别算法进行文字识别。该算法有效地提升了多方向文字的识别准确率。

以上的基于序列到序列的文字识别算法拥有诸多优点，比如可端到端训练、无需后处理步骤、无需字符位置监督信息等。但是，对于不规则形状文字，这类文字识别算法通常需要先对图片或者图像特征进行矫正，再编码为一维的特征序列。在这个矫正和编码的过程中，由于不规则形状文字发生了严重的形变，容易损失关键信息或者增加额外噪声。

3. 自然场景端到端文字识别相关工作

自然场景端到端文字识别算法可以粗略分为两类。一类是检测模型和识别模型分别单独训练的多模型端到端文字识别算法。另一类是将检测模块和识别模块集成到一个可端到端训练的模型中的单模型端到端文字识别算法。

3.1. 多模型的端到端文字识别算法

这类端到端文字识别算法通常先使用文字检测模型对文字图片进行检测，然后使用文字识别模型对文字区域进行识别。它们的文字检测模型和文字识别模型是相互独立的。

首先是基于词汇表的端到端文字识别算法。 Wang 等人 [34] 首先使用随机蕨（ Random Ferns ）进行多尺度的字符检测；然后，把字符看作单词的局部片段，根据一个固定的词汇表使用图结构（ Pictorial Structures ）框架检测出单词；接下来，根据文字区域的特征进行重新评估其置信度；最后，使用非最大值抑制算法对上述步骤的检测结果进行过滤。该方法依赖一个固定的词汇表，因此方法的通用性受限。

鉴于上述方法对词汇表的依赖， Neumann 和 Matas [26] 提出了首个无需词汇表的端到端文字识别算法。该算法的具体步骤如下：（ 1 ）使用最大稳定极值区域算法提取字符候选；（ 2 ）对候选区域进行字符和非字符的分类；（ 3 ）根据集合规则生成文字行；（ 4 ）使用印刷模型（ Typographic Model ）对字符进行识别；（ 5 ）使用语言模型优化字符识别并输出文字行结果。该方法的优点是无需词汇表，但是流程仍然繁多且复杂。

为了进一步提升文字识别的鲁棒性， Neumann 和 Matas [27,57] 将字符检测问题作为一个从极值区域（ Extremal Regions , ERs ）集合中进行高效序列选择的问题。该 ER 检测器对于模糊、光照、颜色变换、问题变化和低对比度较为鲁棒。该算法的具体步骤如下：（ 1 ）使用一个新的复杂度较低的特征算子计算每个极值区域的特征并对齐进行分类，保留局部最大概率的极值区域；（ 2 ）使用更大计算量的特征算子对保留下来的极值区域再进行分类筛选出字符候选区域；（ 3 ）使用一个带有反馈循环的穷举搜索算法将极值区域分组成单词并选择出最合适的字符分割；（ 4 ）使用一个通过合成字体训练的识别模型进行文字识别。该算法通过一系列精巧的设计来尽可能地降低计算量，使得文字检测的速度得到了巨大的提升。

为了加强文字检测和文字识别之间的联系， Yao 等人 [58] 提出使用共同的特征和分类方案进行文字检测和文字识别，然后再使用一个词汇表搜索算法修正识别结果。该方法是首个处理水平和多方向文字的端到端文字识别算法。

技术综述十六：自然场景文字检测与识别--相关工作

随着深度学习中的目标检测和分类任务的发展， Jaderberg 等人 [35] 首先使用一个基于 R-CNN [36] 框架的文字检测算法提取出文字区域，然后使用一个基于单词分类的文字识别算法进行文字识别。

随着可端到端训练的目标检测算法的发展， Liao 等人 [59] 首先使用他们提出的可端到端训练的文字检测器进行检测，然后再使用 CRNN 文字识别算法对检测出的文字区域进行识别。

上述方法大多数直接将文字检测算法和文字识别算法进行串联，没有充分利用文字检测和文字识别之间的相关性和互补性。

3.2. 单模型的端到端文字识别算法

这类方法将文字检测模块和文字识别模块集成到一个模型中，利用两个模块之间的互补性，通过共享特征和联合优化进一步提升端到端文字识别的精度。

Li 等人 [60] 将一个水平文字检测模块和一个序列到序列的文字识别模块集成到一个统一的模型中。该算法能够对水平文字进行端到端文字识别。同时， Busta 等人 [61] 设计了一个与 Li 等人 [60] 类似的框架。不过，其检测模块能够处理多方向文字。因此，该算法能够对多方向文字进行端到端文字识别。之后 He 等人 [62] 和 Liu 等人 [63] 也采用了相似的框架，通过替换更准确的检测器或者更强大的序列到序列的文字识别器来进一步提升精度。

这些方法将文字检测模块和文字识别模块集成到一个模型中，显著提高了端到端文字识别的精度。但是它们仍然存在两个不足之处。一是它们并不能完全地进行端到端训练，而需要借助一些课程学习或者分阶段训练的训练技巧。二是它们仅能处理水平文字或者多方向文字，无法对不规则形状文字比如曲型文字进行精确的检测和识别。

总结

本章对自然场景文字的研究现状进行了介绍，包括自然场景文字检测、文字识别和端到端文字识别的相关研究工作，自然场景文字数据集及评价方法和业界产品。从中可以看出，现有的自然场景文字检测算法和端到端文字识别算法仍然有较大的局限性。因此，还有以下几点问题需要解决：

（1）自然场景文字检测算法的检测精度和推理速度需要进一步提升。如何在保持方法简洁快速的前提下提升文字检测的精度是一个值得研究的问题。

（2）自然场景文字检测算法对于多方向、极端长宽比和曲型等复杂形状的文字的鲁棒性仍然需要提升。

（3）现有的复杂形状的文字识别算法均是先将文字矫正和编码为一维序列，再进行识别。在矫正的过程中，不规则形状文字发生了严重的形变，容易损失关键信息或者增加额外噪声。因此，直接在二维空间中进行文字识别是一个值得研究的问题。

（3）目前的端到端文字识别算法对于文字检测模块和文字识别模块的结合方式的探索仍然处于初级阶段。如何充分处理好文字检测模块与文字识别模块的衔接以及充分利用两者的关联性和互补性，是非常值得探索的。

参考文献

[1] Mori S, Suen C Y, Yamamoto K. Historical Review of OCR Research and Development[J]. Proceedings of the IEEE, 1992, 80(7): 1029–1058.

[2] LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2323.

[3] Fujisawa H. Forty Years of Research in Character and Document Recognition—An Industrial Perspective[J]. Pattern Recognition, Pergamon, 2008, 41(8): 2435–2446.

[4] Doermann D, Tombre K. Handbook of Document Image Processing and Recognition[M]. Handbook of Document Image Processing and Recognition, Springer London, 2014.

[5] 刘成林. 文档图像识别技术回顾与展望[J]. 数据与计算发展前沿, 2019, 1(06): 17–25.

[6] Bissacco A, Cummins M, Netzer Y, et al. PhotoOCR: Reading Text in Uncontrolled Conditions[C]//Proc. ICCV. 2013: 785–792.

[7] Rong X, Yi C, Tian Y. Recognizing text-based traffic guide panels with cascaded localization network[C]//Proceedings of the European Conference on Computer Vision Workshop. 2016: 109–121.

[8] Greenhalgh J, Mirmehdi M. Recognizing Text-Based Traffic Signs[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(3): 1360–1369.

[9] Gonzalez A, Bergasa L M, Yebes J J. Text Detection and Recognition on Traffic Panels From Street-Level Imagery Using Visual Appearance[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(1): 228–238.

[10] Liu X, Zhang R, Zhou Y, et al. ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboard[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2019.

[11] Jarek, Krystyna and Mazurek G. Marketing and Artificial Intelligence[J]. Central European Business Review, Fakulta podnikohospodářská, Vysoká škola ekonomická v Praze, 2019, 8(2): 46–55.

[12] Ives B, Cossick K, Adams D. Amazon Go: Disrupting Retail?[J]. Journal of Information Technology Teaching Cases, SAGE Publications Inc., 2019, 9(1): 2–12.

[13] Xu J, Wu X. A System to Localize and Recognize Texts in Oriented ID Card Images[C]//Proceedings of the 2018 IEEE International Conference on Progress in Informatics and Computing, PIC 2018. Institute of Electrical and Electronics Engineers Inc., 2018: 149–153.

[14] Cai S, Wen J, Xu H, et al. Bank Card and ID Card Number Recognition in Android Financial APP[G]//International Conference on Smart Computing and Communication. Springer, Cham, 2017: 205–213.

[15] Lucas S M, Panaretos A, Sosa L, et al. ICDAR 2003 Robust Reading Competitions[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2003: 682–687.

[16] Shahab A, Shafait F, Dengel A. ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 1491–1496.

[17] Karatzas D, Shafait F, Uchida S, et al. ICDAR 2013 Robust Reading Competition[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2013: 1484–1493.

[18] Karatzas D, Gomez-Bigorda L, Nicolaou A, et al. ICDAR 2015 Competition on Robust Reading[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2015: 1156–1160.

[19] Shi B, Yao C, Liao M, et al. ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2017, 1: 1429–1434.

[20] 白翔, 杨明锟, 石葆光, 廖明辉. 基于深度学习的场景文字检测与识别[J]. 中国科学:信息科学, 2018, 48(05): 531–544.

[21] Long S, He X, Yao C. Scene Text Detection and Recognition: The Deep Learning Era[J]. Proceedings of the International Journal of Computer Vision, 2021, 129(1): 161–184.

[22] Zhong Y, Karu K, Jain A K. Locating Text in Complex Color Images[J]. Pattern Recognition, Pergamon, 1995, 28(10): 1523–1535.

[23] Kim K I, Jung K, Kim J H. Texture-Based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(12): 1631–1639.

[24] Gllavata J, Ewerth R, Freisleben B. Text Detection in Images Based on Unsupervised Classification of High-Frequency Wavelet Coefficients[C]//Proceedings of the International Conference on Pattern Recognition. Institute of Electrical and Electronics Engineers Inc., 2004, 1: 425–428.

[25] Neumann L, Matas J. Text Localization in Real-World Images Using Efficiently Pruned Exhaustive Search[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 687–691.

[26] Neumann L, Matas J. A Method for Text Localization and Recognition in Real-World Images[C]//Proceedings of the Asian Conference on Computer Vision. 2011: 770–783.

[27] Neumann L, Matas J. Real-Time Scene Text Localization and Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 3538–3545.

[28] Epshtein B, Ofek E, Wexler Y. Detecting Text in Natural Scenes with Stroke Width Transform[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2010: 2963–2970.

[29] Huang W, Lin Z, Yang J, et al. Text Localization in Natural Images Using Stroke Feature Transform and Text Covariance Descriptors[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1241–1248.

[30] Bai X, Yao C, Liu W. Strokelets: A Learned Multi-Scale Mid-Level Representation for Scene Text Recognition[J]. IEEE Transactions on Image Processing, 2016, 25(6): 2789–2802.

[31] Alsharif O, Pineau J. End-to-End Text Recognition with Hybrid HMM Maxout Models[C]//Proceedings of the International Conference on Learning Representations. 2014.

[32] Mishra A, Alahari K, Jawahar C v. Top-Down and Bottom-Up Cues for Scene Text Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2012: 2687–2694.

[33] Matas J, Chum O, Urban M, et al. Robust Wide-Baseline Stereo from Maximally Stable Extremal Regions[J]. Image and Vision Computing, 2004, 22(10 SPEC. ISS.): 761–767.

[34] Wang K, Babenko B, Belongie S. End-to-End Scene Text Recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. 2011: 1457–1464.

[35] Jaderberg M, Simonyan K, Vedaldi A, et al. Reading Text in the Wild with Convolutional Neural Networks[J]. International Journal of Computer Vision, 2016, 116(1): 1–20.

[36] Girshick R, Donahue J, Darrell T, et al. Region-Based Convolutional Networks for Accurate Object Detection and Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 142–158.

[37] Zitnick C L, Dollár P. Edge Boxes: Locating Object Proposals from Edges[C]//Proceedings of the European Conference on Computer Vision. Springer, Cham, 2014: 391–405.

[38] Bin Yang, Yan J, Lei Z, et al. Aggregate Channel Features for Multi-View Face Detection[C]//IEEE International Joint Conference on Biometrics. IEEE, 2014: 1–8.

[39] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2005, 1: 886–893.

[40] Gupta A, Vedaldi A, Zisserman A. Synthetic Data for Text Localisation in Natural Images[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 2315–2324.

[41] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 779–788.

[42] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]//Proceedings of the European Conference on Computer Vision. 2016: 56–72.

[43] Yao C, Bai X, Liu W, et al. Detecting Texts of Arbitrary Orientations in Natural Images[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2012: 1083–1090.

[44] Zhang Z, Zhang C, Shen W, et al. Multi-oriented Text Detection with Fully Convolutional Networks[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 4159–4167.

[45] Shi B, Bai X, Belongie S. Detecting Oriented Text in Natural Images by Linking Segments[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 3482–3490.

[46] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 2642–2651.

[47] Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]//Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015, 9351: 234–241.

[48] Hong S, Roh B, Kim K-H, et al. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection[J]. CoRR, 2016: abs/1611.08588.

[49] Liu Y, Jin L. Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 3454–3461.

[50] Jaderberg M, Simonyan K, Vedaldi A, et al. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition[J]. CoRR, 2014, abs/1406.2.

[51] Shi B, Bai X, Yao C. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298–2304.

[52] Graves A, Fernández S, Gomez F, et al. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks[C]//ACM International Conference Proceeding Series. 2006, 148: 369–376.

[53] Shi B, Wang X, Lyu P, et al. Robust Scene Text Recognition with Automatic Rectification[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 4168–4176.

[54] Jaderberg M, Simonyan K, Zisserman A, et al. Spatial Transformer Networks[C]//Advances in Neural Information Processing Systems. 2015: 2017–2025.

[55] Bai F, Cheng Z, Niu Y, et al. Edit probability for scene text recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 1508–1516.

[56] Cheng Z, Xu Y, Bai F, et al. AON: Towards Arbitrarily-Oriented Text Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5571–5579.

[57] Neumann L, Matas J. Real-Time Lexicon-Free Scene Text Localization and Recognition[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. 2016, 38(9): 1872–1885.

[58] Yao C, Bai X, Liu W. A Unified Framework for Multioriented Text Detection and Recognition[J]. IEEE Transactions on Image Processing, IEEE, 2014, 23(11): 4737–4749.

[59] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[C]//Proceedings of the Association for the Advance of Artificial Intelligence. 2017: 4161–4167.

[60] Li H, Wang P, Shen C. Towards End-to-End Text Spotting with Convolutional Recurrent Neural Networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017(2): 5248–5256.

[61] Busta M, Neumann L, Matas J. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017, 2017-Octob: 2223–2231.

[62] He T, Tian Z, Huang W, et al. An End-to-End Textspotter with Explicit Alignment and Attention[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5020–5029.

[63] Liu X, Liang D, Yan S, et al. FOTS: Fast Oriented Text Spotting with a Unified Network[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5676–5685.

想了解更多的AI技术干货，欢迎上华为云的AI专区，目前有AI编程Python等六大实战营（http://su.modelarts.club/qQB9）供大家免费学习。

EI企业智能 EI智能体 Image OCR

Office2016技术预览版安装后的注意事项

814 2022-05-30

技术 综述 十六：自然场景文字检测与识别--相关工作

用Visio制作最专业的技术流程图教程（怎么用visio做流程图）

Office2016技术预览版安装后的注意事项

用Visio2010制作最专业的技术流程图教程（visio2010画流程图教程）

推荐文章

企业生产管理是什么，企业生产管理软件

进盘点进销存软件排行榜前十名

进销存系统哪个简单好用？进销存系统优点

工厂生产管理（工厂生产管理流程及制度）

生产管理软件，机械制造业生产管理，制造业生产过程管理软件

进销存软件和ERP有什么区别？进销存与erp软件理解

进销存如何进行库存管理

如何利用excel制作销售订单管理系统？

数据库订单管理系统有哪些功能？数据库订单管理系统怎么设计？

什么是数据库管理系统？

最近发表

热评文章

零代码开发是什么？2022低代码平台排行榜

智能进销存库存管理系统（智慧进销存）

在线文档哪家强？8款在线文档编辑软件推荐

WPS2016怎么绘制简单的价格表?

连锁餐饮管理系统的功能有哪些？餐饮服务系统的构成及工

智能定制家居管理系统：重新定义家庭生活方式

友情链接

技术综述十六：自然场景文字检测与识别--相关工作

微信扫一扫：分享

推荐文章

最近发表

热评文章

友情链接