技术综述十五自然场景文字检测与识别系列--背景与业界产品

网友投稿 865 2022-05-29

自然场景文字检测与识别系列博客将从背景、相关工作、文字检测算法介绍、文字识别算法介绍、端到端文字识别算法介绍、总结与展望等多个方面,介绍自然场景文字检测与识别算法。

背景与挑战

借助计算机手段,从图像中自动地提取文字信息的过程通常被称作光学字符识别 (Optical Character Recognition, OCR) [1]。光学字符识别是计算机视觉领域重要的研究问题之一。传统的光学字符识别专注在文档图像的识别[2–5]。文档图像往往在高度受控的环境中通过特定的设备采集(比如扫描仪)。文档图像的背景单一、文字排列规则,较为容易进行高精度的识别。近年来,随着互联网和移动设备的兴起,自然场景图像的数量出现了指数级的增长。这里的自然场景图像是指生活中的各种各样的场景图像,比如图1中的商品包装、门店招牌、菜单、车辆、屏幕、海报。此外,街景、交通指示牌、证件、票据等场景也包含文字信息。丰富的自然场景文字也拥有更灵活、更宽广的应用场景[6,7]。例如,自动驾驶中的路牌识别[8,9]、门店招牌识别[10]、无人超市[11,12]、拍照翻译、证件识别[13,14]等。因此,基于计算机视觉技术自动提取自然图像中的文字信息逐渐成为学术界和工业界的关注点,比如近年经常举办的“ICDAR鲁棒文字阅读比赛”[10,15–19]吸引了大量高校和企业的参与。

图 1 自然场景中的文字

相比传统的文档文字识别只能处理较为规则的文档图像,自然场景文字检测和识别[20]由于其场景的丰富多样更具普遍意义,但同时也带来了更多的挑战。正如Long等人[21]提到的,自然场景文字检测和识别的挑战主要来自三个方面:

(1)文字本身的表现形式多样:自然场景文字的字体、尺度、颜色、排列方向、形状、分布密度等变化非常丰富多样。其中,形状的多样性包括多方向、极端长宽比、不规则形状等。

(2)背景环境复杂:自然场景图像中的背景环境是不受限的,其中有一些物体或者纹理与文字非常相似,比如砖块、栅栏等。

(3)图像质量:传统的文档文字识别使用的图像通常是在特定的、受限的环境下采集的,图像质量有一定的保障。自然场景图像的采集设备和采集环境是不受限的,因此容易产生分辨率太低、光照不均匀等图像质量较差的情况。

由上述挑战结合实际应用,可以归纳出四个方面的关键问题:文字检测算法的精度和速度的平衡、复杂形状文字检测、复杂形状文字识别、文字检测与文字识别的结合方式。

(1)文字检测的精度和速度的平衡

文字检测的精度是评价文字检测算法好坏的最直接的指标。高精度的文字检测算法能够全面、准确地定位图片中的文字,显著地降低识别的难度并提升端到端文字识别的精度。 文字检测的推理速度同样是评价文字检测算法优劣的重要指标。一方面,快速和轻量级的文字检测算法可以运行在更多的设备上,比如移动设备和嵌入式设备;另一方面,快速的文字检测算法可以提高处理数据的效率,服务于一些实时的应用场景,比如视频文字的检测和识别。

综上,文字检测的精度和速度对于实际应用都是非常重要的。但是,通常情况下,精度和速度是两个相互影响和需要折衷的变量。因此,在研究提升文字检测算法精度的同时,还需要兼顾模型的简洁性和速度,以增强文字检测算法的实用性。

(2)复杂形状文字检测

早期的自然场景文字检测和识别工作的主要侧重点是分离文字和复杂背景以及对抗文字的字体、颜色等变化。它们通常利用纹理[22–24](Texture)、连通区域[25–27](Connected Regions)、笔画[28–30](Stroke)等中低层图像特征来对文字和背景进行区分。随着深度学习(Deep Learning)的发展,自然场景文字检测算法中的深度特征对于背景、字体、颜色等变化更加鲁棒。近年来该领域的研究重点逐渐转变为对复杂形状文字的研究。

相比通用目标检测,自然场景文字检测在定位的精准程度上有更高的要求。在通用目标检测任务中,目标定位和目标分类可以并行进行。这是因为目标检测任务的目标分类难度相对较小,它通常使用水平矩形框粗略地表示目标的位置即可进行正确的分类。相对而言,自然场景文字识别通常是一个更加精细的序列识别问题,从而需要更精确的检测结果。一方面,对于复杂形状的文字实例,精确的文字包围框能够排除背景和相邻文字实例的干扰,极大地提高文字识别的准确率。另一方面,如图 2所示,在同样只有一半的局部信息的情况下,通用目标的局部信息有比较强的区分力,仍然能够被正确分类,但是文字检测框的偏移则会丢失关键字符信息,严重地影响文字识别的准确率。从图2中可以看出,复杂形状的文字实例丢失的关键信息更多。因此,文字检测的定位的精准程度对于复杂形状文字尤为重要。总的来说,在复杂形状实例的精确定位方面,自然场景文字检测相比目标检测更具挑战。因此,对于多方向和不规则形状等复杂形状,如何对文字区域进行精确的表示则成为了一个关键的问题。

自然场景中存在大量具有极端长宽比的文字实例。通常的卷积神经网络的感受野是正方形的,与文字实例的长宽比差距很大。因此,如何增强模型的感受野或者如何利用较为有限的感受野准确地检测极端长宽比文字实例,是一个值得研究的问题。

总之,多方向、极端长宽比和不规则形状等复杂形状的文字是文字检测的主要挑战,也是其相比通用目标检测的重要区别。因此,增强文字检测算法对于复杂形状文字的鲁棒性是文字检测算法的核心研究点之一。

图 2 目标检测和文字检测的对比

图中绿色框使用水平矩形框表示的真值框;红色框表示不精准的检测框。

(3)复杂形状文字识别

早期的自然场景文字识别工作[30–32]的主要侧重点是如何构建字符级别的特征表示。它们通常利用先通过笔画或者过分割片段定位字符,再使用分类器对字符进行分类,最后将字符分组为单词。与文字检测算法的发展相似,随着深度特征对于背景、字体、颜色等变化更加鲁棒。自然场景文字检测识别算法的研究重点也逐渐转变为复杂形状文字识别的研究。

多方向、不规则形状等复杂形状的文字同样给文字识别任务带来了挑战。文字排列的多样化不仅给文字区域带来了更多的背景干扰,也给序列到序列识别的编码和解码带来了难度。因此,如何对不规则形状文字进行矫正或者更好地编解码不规则形状文字,是不规则形状文字识别的关键问题。

对于较为密集的文字区域,文字实例的形状复杂(比如旋转角度较大或者曲型等不规则形状)还会导致相邻文字实例之间的干扰。因为这种情况下,一个文字区域的特征中可能会包含多个文字实例,给文字识别带来干扰。因此,如何抑制相邻文字实例的干扰是端到端文字识别的一个关键问题。

(4)文字检测与文字识别的结合方式

传统的端到端文字识别算法通常分别训练文字检测模型和文字识别模型,在通过简单的串联形成端到端文字识别算法。然而,端到端文字识别方法中的文字检测模块与文字识别模块的结合方式对于最终的端到端文字识别结果有非常大的影响。由于文字检测和文字识别是两个高度相关的任务,充分利用两者之间的关联性和互补性,能够显著地提升端到端文字识别算法的精度。一方面,文字识别模型可以根据识别结果帮助文字检测模型区分形似文字的背景区域;另一方面,合适的文字检测结果也有利于文字识别。因此,将文字检测模型与文字识别模型共享特征和联合优化将比分别单独训练文字检测模型和文字识别模型更加有效。此外,如何设计文字检测模块的输入和文字识别模块的输出,使其更好地衔接和协同工作,也是端到端文字识别的一个值得研究的关键问题。

业界产品

自然场景文字检测与识别有着广泛的应用场景。因此,众多国内外企业或者机构均有其对应场景的文字识别业务和产品。按照不同的产品展现形式,业界产品主要可以分为企业内部调用、云计算服务引擎、开源项目和面向普通用户的产品。接下来将分别进行介绍。

(1)企业内部调用

这类文字识别产品的主要应用场景是图片和视频的内容审核业务。社交类企业比如Facebook和腾讯,每天均有大量的新上传的图片和视频数据。对这些数据进行自动的内容审核是至关重要的,能够及时有效地避免不良内容或者恶意内容的传播。电子商务类企业比如阿里巴巴和京东,需要审核广告投放和商家上传的商品介绍图片,避免出现违规的内容。其中,文字信息是最为关键的需要审核的信息之一。这类需求通常调用量大且数据安全级别较高,因此相关企业利用场景文字检测和识别技术自动地对图片中的文字内容进行审核,这对内容安全和广告审核非常重要。

(2)云计算服务引擎

目前,谷歌、亚马逊、微软、阿里巴巴、华为、腾讯等企业在其云业务的产品中均有文字检测和识别引擎。以华为云为例,其主要的应用场景包括通用类文字识别、证件类文字识别、票据类文字识别、行业类文字识别等。这类产品通常针对特定的场景提供独立的文字识别模型。这些模型对于特定的场景已经有一定的实用性,但是开放场景下的文字检测和识别还有待进一步的研究和提升。

(3)开源项目

百度公司开源了其OCR项目,名为PaddleOCR。根据其项目介绍,PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库,助力使用者训练出更好的模型,并应用落地。此外,作为计算机视觉领域最大的开源项目之一的OpenCV开源项目中也包含文字检测与识别算法。

(4)面向普通用户的产品

这类主要嵌入在各种常用的应用中,主要包括:(a)字典类应用,比如谷歌翻译、有道词典、金山词典等;(b)笔记类应用,比如有道云笔记、华为手机便签等;(c)社交类应用,比如腾讯QQ、微信等。以微信应用为例,其OCR产品接口可以方便地在聊天界面和朋友圈界面调用,方便地提取图片中的文字信息。

丰富的业界产品充分说明了工业界对于文字识别的需求是巨大的。研究更准确、更高效和更鲁棒的文字检测和识别算法能够更好地满足各类产品的需求。

参考文献

[1]    Mori S, Suen C Y, Yamamoto K. Historical Review of OCR Research and Development[J]. Proceedings of the IEEE, 1992, 80(7): 1029–1058.

[2]    LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2323.

[3]    Fujisawa H. Forty Years of Research in Character and Document Recognition—An Industrial Perspective[J]. Pattern Recognition, Pergamon, 2008, 41(8): 2435–2446.

[4]    Doermann D, Tombre K. Handbook of Document Image Processing and Recognition[M]. Handbook of Document Image Processing and Recognition, Springer London, 2014.

[5]    刘成林. 文档图像识别技术回顾与展望[J]. 数据与计算发展前沿, 2019, 1(06): 17–25.

[6]    Bissacco A, Cummins M, Netzer Y, et al. PhotoOCR: Reading Text in Uncontrolled Conditions[C]//Proc. ICCV. 2013: 785–792.

[7]    Rong X, Yi C, Tian Y. Recognizing text-based traffic guide panels with cascaded localization network[C]//Proceedings of the European Conference on Computer Vision Workshop. 2016: 109–121.

[8]    Greenhalgh J, Mirmehdi M. Recognizing Text-Based Traffic Signs[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(3): 1360–1369.

[9]    Gonzalez A, Bergasa L M, Yebes J J. Text Detection and Recognition on Traffic Panels From Street-Level Imagery Using Visual Appearance[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(1): 228–238.

[10]  Liu X, Zhang R, Zhou Y, et al. ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboard[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2019.

[11]  Jarek, Krystyna and Mazurek G. Marketing and Artificial Intelligence[J]. Central European Business Review, Fakulta podnikohospodářská, Vysoká škola ekonomická v Praze, 2019, 8(2): 46–55.

[12]  Ives B, Cossick K, Adams D. Amazon Go: Disrupting Retail?[J]. Journal of Information Technology Teaching Cases, SAGE Publications Inc., 2019, 9(1): 2–12.

[13]  Xu J, Wu X. A System to Localize and Recognize Texts in Oriented ID Card Images[C]//Proceedings of the 2018 IEEE International Conference on Progress in Informatics and Computing, PIC 2018. Institute of Electrical and Electronics Engineers Inc., 2018: 149–153.

[14]  Cai S, Wen J, Xu H, et al. Bank Card and ID Card Number Recognition in Android Financial APP[G]//International Conference on Smart Computing and Communication. Springer, Cham, 2017: 205–213.

[15]  Lucas S M, Panaretos A, Sosa L, et al. ICDAR 2003 Robust Reading Competitions[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2003: 682–687.

[16]  Shahab A, Shafait F, Dengel A. ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 1491–1496.

[17]  Karatzas D, Shafait F, Uchida S, et al. ICDAR 2013 Robust Reading Competition[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2013: 1484–1493.

[18]  Karatzas D, Gomez-Bigorda L, Nicolaou A, et al. ICDAR 2015 Competition on Robust Reading[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2015: 1156–1160.

[19]  Shi B, Yao C, Liao M, et al. ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2017, 1: 1429–1434.

[20]  白翔, 杨明锟, 石葆光, 廖明辉. 基于深度学习的场景文字检测与识别[J]. 中国科学:信息科学, 2018, 48(05): 531–544.

[21]  Long S, He X, Yao C. Scene Text Detection and Recognition: The Deep Learning Era[J]. Proceedings of the International Journal of Computer Vision, 2021, 129(1): 161–184.

[22]  Zhong Y, Karu K, Jain A K. Locating Text in Complex Color Images[J]. Pattern Recognition, Pergamon, 1995, 28(10): 1523–1535.

[23]  Kim K I, Jung K, Kim J H. Texture-Based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(12): 1631–1639.

[24]  Gllavata J, Ewerth R, Freisleben B. Text Detection in Images Based on Unsupervised Classification of High-Frequency Wavelet Coefficients[C]//Proceedings of the International Conference on Pattern Recognition. Institute of Electrical and Electronics Engineers Inc., 2004, 1: 425–428.

[25]  Neumann L, Matas J. Text Localization in Real-World Images Using Efficiently Pruned Exhaustive Search[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 687–691.

[26]  Neumann L, Matas J. A Method for Text Localization and Recognition in Real-World Images[C]//Proceedings of the Asian Conference on Computer Vision. 2011: 770–783.

[27]  Neumann L, Matas J. Real-Time Scene Text Localization and Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 3538–3545.

技术综述十五:自然场景文字检测与识别系列--背景与业界产品

[28]  Epshtein B, Ofek E, Wexler Y. Detecting Text in Natural Scenes with Stroke Width Transform[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2010: 2963–2970.

[29]  Huang W, Lin Z, Yang J, et al. Text Localization in Natural Images Using Stroke Feature Transform and Text Covariance Descriptors[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1241–1248.

[30]  Bai X, Yao C, Liu W. Strokelets: A Learned Multi-Scale Mid-Level Representation for Scene Text Recognition[J]. IEEE Transactions on Image Processing, 2016, 25(6): 2789–2802.

[31]  Alsharif O, Pineau J. End-to-End Text Recognition with Hybrid HMM Maxout Models[C]//Proceedings of the International Conference on Learning Representations. 2014.

[32]  Mishra A, Alahari K, Jawahar C v. Top-Down and Bottom-Up Cues for Scene Text Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2012: 2687–2694.

想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营(http://su.modelarts.club/qQB9)供大家免费学习。

EI企业智能 EI智能体 Image OCR

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:在 Ubuntu 上使用 eSpeak 将文本文档转换为语音
下一篇:[mongo] [认证] mongodb dba 考试学习指导
相关文章