技術綜述十五自然場景文字檢測與識別系列--背景與業界產品

      網友投稿 1023 2022-05-29

      自然場景文字檢測與識別系列博客將從背景、相關工作、文字檢測算法介紹、文字識別算法介紹、端到端文字識別算法介紹、總結與展望等多個方面,介紹自然場景文字檢測與識別算法。

      背景與挑戰

      借助計算機手段,從圖像中自動地提取文字信息的過程通常被稱作光學字符識別 (Optical Character Recognition, OCR) [1]。光學字符識別是計算機視覺領域重要的研究問題之一。傳統的光學字符識別專注在文檔圖像的識別[2–5]。文檔圖像往往在高度受控的環境中通過特定的設備采集(比如掃描儀)。文檔圖像的背景單一、文字排列規則,較為容易進行高精度的識別。近年來,隨著互聯網和移動設備的興起,自然場景圖像的數量出現了指數級的增長。這里的自然場景圖像是指生活中的各種各樣的場景圖像,比如圖1中的商品包裝、門店招牌、菜單、車輛、屏幕、海報。此外,街景、交通指示牌、證件、票據等場景也包含文字信息。豐富的自然場景文字也擁有更靈活、更寬廣的應用場景[6,7]。例如,自動駕駛中的路牌識別[8,9]、門店招牌識別[10]、無人超市[11,12]、拍照翻譯、證件識別[13,14]等。因此,基于計算機視覺技術自動提取自然圖像中的文字信息逐漸成為學術界和工業界的關注點,比如近年經常舉辦的“ICDAR魯棒文字閱讀比賽”[10,15–19]吸引了大量高校和企業的參與。

      圖 1 自然場景中的文字

      相比傳統的文檔文字識別只能處理較為規則的文檔圖像,自然場景文字檢測和識別[20]由于其場景的豐富多樣更具普遍意義,但同時也帶來了更多的挑戰。正如Long等人[21]提到的,自然場景文字檢測和識別的挑戰主要來自三個方面:

      (1)文字本身的表現形式多樣:自然場景文字的字體、尺度、顏色、排列方向、形狀、分布密度等變化非常豐富多樣。其中,形狀的多樣性包括多方向、極端長寬比、不規則形狀等。

      (2)背景環境復雜:自然場景圖像中的背景環境是不受限的,其中有一些物體或者紋理與文字非常相似,比如磚塊、柵欄等。

      (3)圖像質量:傳統的文檔文字識別使用的圖像通常是在特定的、受限的環境下采集的,圖像質量有一定的保障。自然場景圖像的采集設備和采集環境是不受限的,因此容易產生分辨率太低、光照不均勻等圖像質量較差的情況。

      由上述挑戰結合實際應用,可以歸納出四個方面的關鍵問題:文字檢測算法的精度和速度的平衡、復雜形狀文字檢測、復雜形狀文字識別、文字檢測與文字識別的結合方式。

      (1)文字檢測的精度和速度的平衡

      文字檢測的精度是評價文字檢測算法好壞的最直接的指標。高精度的文字檢測算法能夠全面、準確地定位圖片中的文字,顯著地降低識別的難度并提升端到端文字識別的精度。?文字檢測的推理速度同樣是評價文字檢測算法優劣的重要指標。一方面,快速和輕量級的文字檢測算法可以運行在更多的設備上,比如移動設備和嵌入式設備;另一方面,快速的文字檢測算法可以提高處理數據的效率,服務于一些實時的應用場景,比如視頻文字的檢測和識別。

      綜上,文字檢測的精度和速度對于實際應用都是非常重要的。但是,通常情況下,精度和速度是兩個相互影響和需要折衷的變量。因此,在研究提升文字檢測算法精度的同時,還需要兼顧模型的簡潔性和速度,以增強文字檢測算法的實用性。

      (2)復雜形狀文字檢測

      早期的自然場景文字檢測和識別工作的主要側重點是分離文字和復雜背景以及對抗文字的字體、顏色等變化。它們通常利用紋理[22–24](Texture)、連通區域[25–27](Connected Regions)、筆畫[28–30](Stroke)等中低層圖像特征來對文字和背景進行區分。隨著深度學習(Deep Learning)的發展,自然場景文字檢測算法中的深度特征對于背景、字體、顏色等變化更加魯棒。近年來該領域的研究重點逐漸轉變為對復雜形狀文字的研究。

      相比通用目標檢測,自然場景文字檢測在定位的精準程度上有更高的要求。在通用目標檢測任務中,目標定位和目標分類可以并行進行。這是因為目標檢測任務的目標分類難度相對較小,它通常使用水平矩形框粗略地表示目標的位置即可進行正確的分類。相對而言,自然場景文字識別通常是一個更加精細的序列識別問題,從而需要更精確的檢測結果。一方面,對于復雜形狀的文字實例,精確的文字包圍框能夠排除背景和相鄰文字實例的干擾,極大地提高文字識別的準確率。另一方面,如圖 2所示,在同樣只有一半的局部信息的情況下,通用目標的局部信息有比較強的區分力,仍然能夠被正確分類,但是文字檢測框的偏移則會丟失關鍵字符信息,嚴重地影響文字識別的準確率。從圖2中可以看出,復雜形狀的文字實例丟失的關鍵信息更多。因此,文字檢測的定位的精準程度對于復雜形狀文字尤為重要。總的來說,在復雜形狀實例的精確定位方面,自然場景文字檢測相比目標檢測更具挑戰。因此,對于多方向和不規則形狀等復雜形狀,如何對文字區域進行精確的表示則成為了一個關鍵的問題。

      自然場景中存在大量具有極端長寬比的文字實例。通常的卷積神經網絡的感受野是正方形的,與文字實例的長寬比差距很大。因此,如何增強模型的感受野或者如何利用較為有限的感受野準確地檢測極端長寬比文字實例,是一個值得研究的問題。

      總之,多方向、極端長寬比和不規則形狀等復雜形狀的文字是文字檢測的主要挑戰,也是其相比通用目標檢測的重要區別。因此,增強文字檢測算法對于復雜形狀文字的魯棒性是文字檢測算法的核心研究點之一。

      圖 2?目標檢測和文字檢測的對比

      圖中綠色框使用水平矩形框表示的真值框;紅色框表示不精準的檢測框。

      (3)復雜形狀文字識別

      早期的自然場景文字識別工作[30–32]的主要側重點是如何構建字符級別的特征表示。它們通常利用先通過筆畫或者過分割片段定位字符,再使用分類器對字符進行分類,最后將字符分組為單詞。與文字檢測算法的發展相似,隨著深度特征對于背景、字體、顏色等變化更加魯棒。自然場景文字檢測識別算法的研究重點也逐漸轉變為復雜形狀文字識別的研究。

      多方向、不規則形狀等復雜形狀的文字同樣給文字識別任務帶來了挑戰。文字排列的多樣化不僅給文字區域帶來了更多的背景干擾,也給序列到序列識別的編碼和解碼帶來了難度。因此,如何對不規則形狀文字進行矯正或者更好地編解碼不規則形狀文字,是不規則形狀文字識別的關鍵問題。

      對于較為密集的文字區域,文字實例的形狀復雜(比如旋轉角度較大或者曲型等不規則形狀)還會導致相鄰文字實例之間的干擾。因為這種情況下,一個文字區域的特征中可能會包含多個文字實例,給文字識別帶來干擾。因此,如何抑制相鄰文字實例的干擾是端到端文字識別的一個關鍵問題。

      (4)文字檢測與文字識別的結合方式

      傳統的端到端文字識別算法通常分別訓練文字檢測模型和文字識別模型,在通過簡單的串聯形成端到端文字識別算法。然而,端到端文字識別方法中的文字檢測模塊與文字識別模塊的結合方式對于最終的端到端文字識別結果有非常大的影響。由于文字檢測和文字識別是兩個高度相關的任務,充分利用兩者之間的關聯性和互補性,能夠顯著地提升端到端文字識別算法的精度。一方面,文字識別模型可以根據識別結果幫助文字檢測模型區分形似文字的背景區域;另一方面,合適的文字檢測結果也有利于文字識別。因此,將文字檢測模型與文字識別模型共享特征和聯合優化將比分別單獨訓練文字檢測模型和文字識別模型更加有效。此外,如何設計文字檢測模塊的輸入和文字識別模塊的輸出,使其更好地銜接和協同工作,也是端到端文字識別的一個值得研究的關鍵問題。

      業界產品

      自然場景文字檢測與識別有著廣泛的應用場景。因此,眾多國內外企業或者機構均有其對應場景的文字識別業務和產品。按照不同的產品展現形式,業界產品主要可以分為企業內部調用、云計算服務引擎、開源項目和面向普通用戶的產品。接下來將分別進行介紹。

      (1)企業內部調用

      這類文字識別產品的主要應用場景是圖片和視頻的內容審核業務。社交類企業比如Facebook和騰訊,每天均有大量的新上傳的圖片和視頻數據。對這些數據進行自動的內容審核是至關重要的,能夠及時有效地避免不良內容或者惡意內容的傳播。電子商務類企業比如阿里巴巴和京東,需要審核廣告投放和商家上傳的商品介紹圖片,避免出現違規的內容。其中,文字信息是最為關鍵的需要審核的信息之一。這類需求通常調用量大且數據安全級別較高,因此相關企業利用場景文字檢測和識別技術自動地對圖片中的文字內容進行審核,這對內容安全和廣告審核非常重要。

      (2)云計算服務引擎

      目前,谷歌、亞馬遜、微軟、阿里巴巴、華為、騰訊等企業在其云業務的產品中均有文字檢測和識別引擎。以華為云為例,其主要的應用場景包括通用類文字識別、證件類文字識別、票據類文字識別、行業類文字識別等。這類產品通常針對特定的場景提供獨立的文字識別模型。這些模型對于特定的場景已經有一定的實用性,但是開放場景下的文字檢測和識別還有待進一步的研究和提升。

      (3)開源項目

      百度公司開源了其OCR項目,名為PaddleOCR。根據其項目介紹,PaddleOCR旨在打造一套豐富、領先、且實用的OCR工具庫,助力使用者訓練出更好的模型,并應用落地。此外,作為計算機視覺領域最大的開源項目之一的OpenCV開源項目中也包含文字檢測與識別算法。

      (4)面向普通用戶的產品

      這類主要嵌入在各種常用的應用中,主要包括:(a)字典類應用,比如谷歌翻譯、有道詞典、金山詞典等;(b)筆記類應用,比如有道云筆記、華為手機便簽等;(c)社交類應用,比如騰訊QQ、微信等。以微信應用為例,其OCR產品接口可以方便地在聊天界面和朋友圈界面調用,方便地提取圖片中的文字信息。

      豐富的業界產品充分說明了工業界對于文字識別的需求是巨大的。研究更準確、更高效和更魯棒的文字檢測和識別算法能夠更好地滿足各類產品的需求。

      參考文獻

      [1]??? Mori S, Suen C Y, Yamamoto K. Historical Review of OCR Research and Development[J]. Proceedings of the IEEE, 1992, 80(7): 1029–1058.

      [2]??? LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2323.

      [3]??? Fujisawa H. Forty Years of Research in Character and Document Recognition—An Industrial Perspective[J]. Pattern Recognition, Pergamon, 2008, 41(8): 2435–2446.

      [4]??? Doermann D, Tombre K. Handbook of Document Image Processing and Recognition[M]. Handbook of Document Image Processing and Recognition, Springer London, 2014.

      [5]??? 劉成林. 文檔圖像識別技術回顧與展望[J]. 數據與計算發展前沿, 2019, 1(06): 17–25.

      [6]??? Bissacco A, Cummins M, Netzer Y, et al. PhotoOCR: Reading Text in Uncontrolled Conditions[C]//Proc. ICCV. 2013: 785–792.

      [7]??? Rong X, Yi C, Tian Y. Recognizing text-based traffic guide panels with cascaded localization network[C]//Proceedings of the European Conference on Computer Vision Workshop. 2016: 109–121.

      [8]??? Greenhalgh J, Mirmehdi M. Recognizing Text-Based Traffic Signs[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(3): 1360–1369.

      [9]??? Gonzalez A, Bergasa L M, Yebes J J. Text Detection and Recognition on Traffic Panels From Street-Level Imagery Using Visual Appearance[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(1): 228–238.

      [10]? Liu X, Zhang R, Zhou Y, et al. ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboard[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2019.

      [11]? Jarek, Krystyna and Mazurek G. Marketing and Artificial Intelligence[J]. Central European Business Review, Fakulta podnikohospodá?ská, Vysoká ?kola ekonomická v Praze, 2019, 8(2): 46–55.

      [12]? Ives B, Cossick K, Adams D. Amazon Go: Disrupting Retail?[J]. Journal of Information Technology Teaching Cases, SAGE Publications Inc., 2019, 9(1): 2–12.

      [13]? Xu J, Wu X. A System to Localize and Recognize Texts in Oriented ID Card Images[C]//Proceedings of the 2018 IEEE International Conference on Progress in Informatics and Computing, PIC 2018. Institute of Electrical and Electronics Engineers Inc., 2018: 149–153.

      [14]? Cai S, Wen J, Xu H, et al. Bank Card and ID Card Number Recognition in Android Financial APP[G]//International Conference on Smart Computing and Communication. Springer, Cham, 2017: 205–213.

      [15]? Lucas S M, Panaretos A, Sosa L, et al. ICDAR 2003 Robust Reading Competitions[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2003: 682–687.

      [16]? Shahab A, Shafait F, Dengel A. ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 1491–1496.

      [17]? Karatzas D, Shafait F, Uchida S, et al. ICDAR 2013 Robust Reading Competition[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2013: 1484–1493.

      [18]? Karatzas D, Gomez-Bigorda L, Nicolaou A, et al. ICDAR 2015 Competition on Robust Reading[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2015: 1156–1160.

      [19]? Shi B, Yao C, Liao M, et al. ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2017, 1: 1429–1434.

      [20]? 白翔, 楊明錕, 石葆光, 廖明輝. 基于深度學習的場景文字檢測與識別[J]. 中國科學:信息科學, 2018, 48(05): 531–544.

      [21]? Long S, He X, Yao C. Scene Text Detection and Recognition: The Deep Learning Era[J]. Proceedings of the International Journal of Computer Vision, 2021, 129(1): 161–184.

      [22]? Zhong Y, Karu K, Jain A K. Locating Text in Complex Color Images[J]. Pattern Recognition, Pergamon, 1995, 28(10): 1523–1535.

      [23]? Kim K I, Jung K, Kim J H. Texture-Based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(12): 1631–1639.

      [24]? Gllavata J, Ewerth R, Freisleben B. Text Detection in Images Based on Unsupervised Classification of High-Frequency Wavelet Coefficients[C]//Proceedings of the International Conference on Pattern Recognition. Institute of Electrical and Electronics Engineers Inc., 2004, 1: 425–428.

      [25]? Neumann L, Matas J. Text Localization in Real-World Images Using Efficiently Pruned Exhaustive Search[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 687–691.

      [26]? Neumann L, Matas J. A Method for Text Localization and Recognition in Real-World Images[C]//Proceedings of the Asian Conference on Computer Vision. 2011: 770–783.

      [27]? Neumann L, Matas J. Real-Time Scene Text Localization and Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 3538–3545.

      技術綜述十五:自然場景文字檢測與識別系列--背景與業界產品

      [28]? Epshtein B, Ofek E, Wexler Y. Detecting Text in Natural Scenes with Stroke Width Transform[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2010: 2963–2970.

      [29]? Huang W, Lin Z, Yang J, et al. Text Localization in Natural Images Using Stroke Feature Transform and Text Covariance Descriptors[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1241–1248.

      [30]? Bai X, Yao C, Liu W. Strokelets: A Learned Multi-Scale Mid-Level Representation for Scene Text Recognition[J]. IEEE Transactions on Image Processing, 2016, 25(6): 2789–2802.

      [31]? Alsharif O, Pineau J. End-to-End Text Recognition with Hybrid HMM Maxout Models[C]//Proceedings of the International Conference on Learning Representations. 2014.

      [32]? Mishra A, Alahari K, Jawahar C v. Top-Down and Bottom-Up Cues for Scene Text Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2012: 2687–2694.

      想了解更多的AI技術干貨,歡迎上華為云的AI專區,目前有AI編程Python等六大實戰營(http://su.modelarts.club/qQB9)供大家免費學習。

      EI企業智能 EI智能體 Image OCR

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Swagger ,Knife4J 項目接口文檔與 Postman 進行集成,實現接口的快速導入
      下一篇:軟考——操作系統知識之進程管理
      相關文章
      亚洲xxxx18| 亚洲AV无码欧洲AV无码网站| 综合久久久久久中文字幕亚洲国产国产综合一区首 | 亚洲色大成网站www永久一区| 国产亚洲人成网站在线观看| 国内精品99亚洲免费高清| 国产AV无码专区亚洲AV漫画| 亚洲色成人网站WWW永久| 国产亚洲日韩在线三区| 国精无码欧精品亚洲一区| 亚洲AV无码成人精品区天堂 | 亚洲av不卡一区二区三区| 亚洲福利视频导航| 亚洲精品中文字幕乱码影院| 亚洲午夜精品在线| 亚洲色精品三区二区一区| 亚洲国产精品成人综合色在线| 国产精品无码亚洲一区二区三区| 亚洲国产av玩弄放荡人妇| 亚洲av无码专区在线观看下载 | 亚洲福利视频一区二区三区| 亚洲免费中文字幕| 亚洲日韩精品A∨片无码加勒比| 亚洲AV无码国产一区二区三区| 国产精品亚洲专区无码不卡| 亚洲午夜无码片在线观看影院猛| 亚洲乱码日产一区三区| 亚洲毛片在线观看| 亚洲一区二区三区免费在线观看| 亚洲欧洲免费无码| 亚洲av日韩片在线观看| 亚洲熟女一区二区三区| 亚洲色图在线播放| 中文文字幕文字幕亚洲色| 亚洲AV成人精品日韩一区| 91麻豆国产自产在线观看亚洲| 久久国产精品亚洲一区二区| 亚洲成av人片不卡无码| 亚洲欧美国产国产一区二区三区| 亚洲精品乱码久久久久久不卡| 久久被窝电影亚洲爽爽爽|