技術(shù)綜述十六:自然場景文字檢測與識別--相關(guān)工作
自然場景文字近年來得到了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,獲得了長足的發(fā)展。本文將針對自然場景文字檢測、自然場景文字識別、自然場景端到端文字識別這三個主流任務(wù)的研究現(xiàn)狀分別展開介紹。
1. 自然場景文字檢測相關(guān)工作
自然場景文字檢測任務(wù)的目標(biāo)是定位圖片中的文字。它通常是文字識別的前置步驟,也是最重要和最具挑戰(zhàn)的步驟之一。現(xiàn)有的自然場景文字檢測算法按照對復(fù)雜形狀文字的適應(yīng)能力可以粗略分為兩類:水平文字檢測算法和多方向文字檢測算法。
1.1. 水平文字檢測算法
該類算法主要使用水平矩形框來定位文字。早期的水平文字檢測算法大致可以分為基于紋理的算法和基于連通區(qū)域的算法。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)也被逐步用于文字檢測算法中。
首先是使用顏色、尺寸、距離等離散的手工特征的文字檢測算法。比如 Zhong 等人 [22] 提出了兩個在復(fù)雜顏色圖片中自動檢測文字的方法。第一個方法將圖片分割成統(tǒng)一顏色的連通成分,然后使用尺寸、對齊、距離等信息選擇可能包含文字的成分。第二個方法計算灰度圖像中的局部空間變化,然后根據(jù)變化量定位文字區(qū)域。這兩種方法的結(jié)合能夠進一步提升文字檢測的效果。
接下來,是使用更具結(jié)構(gòu)化特征描述的文字檢測算法。 Neumann 和 Matas [26] 提出首先使用最大穩(wěn)定極值區(qū)域 [33] ( Maximally Stable Extremal Regions, MSERs )進行字符區(qū)域的提取,然后使用一個字符分類器對提取出來的字符區(qū)域進行字符和非字符的分類以過濾字符區(qū)域,最后通過一些幾何約束和規(guī)則將字符區(qū)域連成文字行。
隨著深度學(xué)習(xí)的發(fā)展, Wang 等人 [34] 提出使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合滑動窗算法進行文字檢測和文字識別。具體地,他們使用多尺度的滑動窗對圖片進行掃描,然后使用卷積神經(jīng)網(wǎng)路對每個滑動窗的區(qū)域進行分類。該方法是首個使用深度學(xué) 習(xí)進行自然場景文字檢測與識別的算法。
隨著目標(biāo)檢測算法的發(fā)展, Jaderberg 等人 [35] 提出了一套類似 R-CNN [36] 框架的文字檢測算法。首先,他們使用邊緣盒 [37] ( Edge Boxes )和聚合通道特征 [38] ( Aggregate Channel Feature, ACF )這兩個區(qū)域提取算法來提取候選文字區(qū)域;然后對提取出來的候選文字區(qū)域利用梯度直方圖 [39] ( Histograms of Oriented Gradients , HOG )進行特征描述;接下來,他們基于方向梯度直方圖特征使用隨機森林( Random Forest )分類器對候選文字區(qū)域進行過濾;最后,使用一個卷積神經(jīng)網(wǎng)絡(luò)對文字區(qū)域進行位置回歸,提升文字區(qū)域的準(zhǔn)確度。
Gupta 等人 [40] 沿用了 Jaderberg 等人 [35] 提出的框架并將其候選區(qū)域的提取部分進行優(yōu)化。他們使用一個基于合成數(shù)據(jù)訓(xùn)練的 YOLO [41] 目標(biāo)檢測模型來提取文字區(qū)域候選框。這些候選框?qū)⒔?jīng)過一個分類器和回歸模型形成最終的檢測結(jié)果。
考慮到文字的上下文信息, Tian 等人 [42] 提出使用滑動窗算法結(jié)合雙向循環(huán)神經(jīng)網(wǎng)絡(luò)進行文字檢測。具體地,他們使用滑動窗對特征圖中的每一行進行從左到右的掃描,同時對每個滑動窗的當(dāng)前掃描的區(qū)域進行分類和回歸。該方法在分類和回歸時使用一個雙向循環(huán)神經(jīng)網(wǎng)絡(luò)建模上下文信息。該方法假定文字是按水平方向從左到右排列的,因此只能檢測水平或者接近水平的文字。
上述的大部分文字檢測算法的發(fā)展歷程可以歸納為從離散的手工特征表示,到結(jié)構(gòu)化的特征,再到深度特征的表示。該類文字檢測算法受限于其水平矩形的包圍框表示,難以準(zhǔn)確地檢測復(fù)雜形狀的文字。
1.2. 多方向文字檢測算法
該類算法通常使用旋轉(zhuǎn)矩形框或者四邊形來描述文字實例的位置。相比水平文字檢測算法,其具有更強的形狀魯棒性。
早期的多方向文字檢測算法主要考慮的是特征的旋轉(zhuǎn)不變性。 Yao 等人 [43] 提出使用兩個旋轉(zhuǎn)不變的特征集合實現(xiàn)多方向文字檢測。第一個特征集合是組件( Component )級別的特征,比如計算特征前估計的中心、尺度、方向等信息。第二個特征集合是鏈( Chain )級別的特征,比如尺度變化、顏色相似度、結(jié)構(gòu)相似度等。這兩個特征集合具有很強的互補性并同時具有旋轉(zhuǎn)不變性,因此非常適合用于多方向文字檢測。
隨著基于全卷積網(wǎng)絡(luò)的語義分割模型的出現(xiàn), Zhang 等人 [44] 提出使用全卷積的分割網(wǎng)絡(luò)結(jié)合最大穩(wěn)定極值區(qū)域算子進行多方向文字檢測。他們首先使用一個全卷積的分割網(wǎng)絡(luò)分割出大致的文字區(qū)域,然后使用基于最大穩(wěn)定極值區(qū)域的后 處理算法對文字區(qū)域進行分行和分詞。該算法是首個基于全卷積分割網(wǎng)絡(luò)的文字檢測算法。一方面,由于當(dāng)時的全卷積分割網(wǎng)絡(luò)的精度較弱,只能分割出大致的文字區(qū)域,需要較為復(fù)雜的后處理算法對分割結(jié)果進行進一步的解析;另一方面,該算法的后處理算法具有一定的局限性,設(shè)定了一系列的先驗,需要根據(jù)數(shù)據(jù)集進行調(diào)整。
考慮到直接檢測極端長寬比的文字實例對卷積的感受野要求較高, Shi 等人 [45] 提出使用文字片段及其連接關(guān)系進行多方向文字檢測。他們使用一個文字片段檢測器檢測出文字片段并預(yù)測出片段間的連接關(guān)系,然后使用后處理算法將屬于同一個單詞或者文字行的片段連接起來形成對應(yīng)的文字包圍框。該算法得益于直接檢測目標(biāo)為文字片段而非完整的文字實例,可以較好地緩解卷積神經(jīng)網(wǎng)絡(luò)的感受野受限的問題,有利于極端長寬比的文字檢測。但是,該算法的后處理步驟引入了兩個 閾值超 參數(shù),需要針對不同的數(shù)據(jù)集進行網(wǎng)格搜索以達到最優(yōu)的精度。
為了進一步簡化文字檢測的流程, EAST [46] 使用一個 U 型結(jié)構(gòu) [47] 的網(wǎng)絡(luò)基于相同的特征圖對特征圖上的每一個單元進行文字非文字的分類和旋轉(zhuǎn)矩形的回歸,然后使用加權(quán)的 非最大 值抑制算法來合并預(yù)測框。它采用了 PVANet [48] 作為骨架網(wǎng)絡(luò)以達到更好的精度和速度的平衡。該方法能夠檢測多方向文字,但是難以處理極端長寬比文字和 曲型 文字等不規(guī)則形狀文字。
同樣為了簡化文字檢測的流程, DMPNet [49] 基于一個通用目標(biāo)檢測算法提出了采用不同方向的矩形默認 框配合 基于 蒙特卡羅 ( Monte Carlo )的四邊形默認框匹配策略以檢測多方向文字。此外,它還采用了 L n 范數(shù)損失函數(shù)來優(yōu)化訓(xùn)練。
這些多方向文字檢測算法存在一些不足。一是它們大多數(shù)需要比較復(fù)雜的后處理步驟。針對不同的自然場景文字數(shù)據(jù)集,它們往往需要重新調(diào)整超參數(shù)。二是它們難以精確地檢測不規(guī)則形狀文字比如曲型文字。
2. 自然場景文字識別相關(guān)工作
自然場景文字識別的發(fā)展大致可以分為三個階段。第一階段是基于字符識別的文字識別算法;第二階段是基于單詞分類的文字識別算法;第三階段是基于序列到序列識別的文字識別算法。
2.1. 基于字符識別的文字識別算法
深度學(xué)習(xí)之前的自然場景文字識別方法主要是基于字符識別的文字識別算法。它們通常先定位字符,然后對字符區(qū)域建立特征表示,再通過分類器進行字 符分類。這類方法的一個代表是工作是 Bai 等人 [30] 。他們提出了一種多尺度的特征表示“ Strokelets ”并結(jié)合方向梯度直方圖特征,再使用隨機森林分類器對特征進行分類?;谧址R別的文字識別算法的優(yōu)點是較為靈活,不受限于單詞的長度且對數(shù)據(jù)的詞匯表沒有太強的依賴。然而,這類方法對字符定位的精度要求較高。
2.2. 基于單詞分類的文字識別算法
基于單詞分類的文字識別算法即將每一個單詞看作一個類別,直接對文字圖片進行分類。 Jaderberg 等人 [50] 提出了將文字識別問題看作圖片分類問題。他們使用了一個深度卷積神經(jīng)網(wǎng)絡(luò)對文字圖片進行分類。其類別數(shù)高達 9 萬多,覆蓋了常見的英文單詞。在大量合成數(shù)據(jù)的訓(xùn)練下,該模型取得了不錯的識別效果。得益于大數(shù)據(jù)驅(qū)動和深度卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)異的性能,該模型在標(biāo)準(zhǔn)數(shù)據(jù)集上的精度大幅超過了之前的文字識別方法。但是,這類文字識別算法的缺點是受限于預(yù)先設(shè)定的詞匯表,無法識別詞匯表之外的單詞。
2.3. 基于序列到序列識別的文字識別算法
這類文字識別算法將文字識別問題看作一個序列到序列識別問題,是當(dāng)前自然場景文字識別的主流方法。
該類文字識別算法的一個代表作是 CRNN [51] 。它是一個結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和聯(lián)結(jié)時序分類 [52] ( Connectionist Temporal Classification, CTC )損失函數(shù)的可端到 端訓(xùn)練 的文字識別模型。首先,它使用卷積神經(jīng)網(wǎng)絡(luò)提取文字圖像特征,并通過卷積和池化操作將其轉(zhuǎn)化為一維的特征序列;然后,它使用循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合聯(lián)結(jié)時序分類對該特征序列進行序列到序列識別。相比基于字符識別的文字識別算法,該方法無需提前對字符進行定位;相比基于單詞分類的文字識別算法,該方法不需要預(yù)先定義詞匯表。但是,該方法假定文字的排列方式為較為嚴格的從左到右排列,因此只能識別水平方向或者接近水平方向的文字。
對于不規(guī)則形狀文字識別, Shi 等人 [53] 提出了將空間變換網(wǎng)絡(luò) [54] ( Spatial Transformer Network , STN )集成入序列到序列識別網(wǎng)絡(luò)中??臻g變換網(wǎng)絡(luò)能夠根據(jù)識別模型的反饋自動學(xué)習(xí)如何對輸入圖片的特征進行矯正。經(jīng)過空間變換網(wǎng)絡(luò)矯正的特征再通過一個基于注意力機制的序列到序列識別模塊進行文字識別。得益于空間變換網(wǎng)絡(luò)的引入,該方法能夠處理不規(guī)則形狀文字。
Bai 等人 [55] 發(fā)現(xiàn)對于基于注意力機制的序列到序列的文字識別算法存在真 值序列和注意力輸出序列概率分布的誤對齊問題。這種誤對齊是由缺失或者多余的預(yù)測字符造成的。字符序列越長,產(chǎn)生誤對齊錯誤的概率越大。為了解決這個問題,他們提出了基于編輯概率的方法。他們在損失函數(shù)中不僅考慮概率分布,還考慮了字符缺失和字符冗余的可能情形。
為了解決多方向文字識別問題, Cheng 等人 [56] 提出先將輸入圖片編碼為四個不同方向的特征序列,再基于序列到序列的識別算法進行文字識別。該算法有效地提升了多方向文字的識別準(zhǔn)確率。
以上的基于序列到序列的文字識別算法擁有諸多優(yōu)點,比如可端到端訓(xùn)練、無需后處理步驟、無需字符位置監(jiān)督信息等。但是,對于不規(guī)則形狀文字,這類文字識別算法通常需要先對圖片或者圖像特征進行矯正,再編碼為一維的特征序列。在這個矯正和編碼的過程中,由于不規(guī)則形狀文字發(fā)生了嚴重的形變,容易損失關(guān)鍵信息或者增加額外噪聲。
3. 自然場景端到端文字識別相關(guān)工作
自然場景端到 端文字 識別算法可以粗略分為兩類。一類是檢測模型和識別模型分別單獨訓(xùn)練的多模型端到 端文字 識別算法。另一類是將檢測模塊和識別模塊集成到一個可端到 端訓(xùn)練 的模型中的單模型端到 端文字 識別算法。
3.1. 多模型的端到端文字識別算法
這類端到 端文字 識別算法通常先使用文字檢測模型對文字圖片進行檢測,然后使用文字識別模型對文字區(qū)域進行識別。它們的文字檢測模型和文字識別模型是相互獨立的。
首先是基于詞匯表的端到 端文字 識別算法。 Wang 等人 [34] 首先使用隨機 蕨 ( Random Ferns )進行多尺度的字符檢測;然后,把字符看作單詞的局部片段,根據(jù)一個固定的詞匯表使用圖結(jié)構(gòu)( Pictorial Structures )框架檢測出單詞;接下來,根據(jù)文字區(qū)域的特征進行重新評估其置信度;最后,使用 非最大 值抑制算法對上述步驟的檢測結(jié)果進行過濾。該方法依賴一個固定的詞匯表,因此方法的通用性受限。
鑒于上述方法對詞匯表的依賴, Neumann 和 Matas [26] 提出了首個無需詞匯表的端到 端文字 識別算法。該算法的具體步驟如下:( 1 )使用最大穩(wěn)定極值區(qū)域算法提取字符候選;( 2 )對候選區(qū)域進行字符和非字符的分類;( 3 )根據(jù)集合規(guī)則生成文字行;( 4 )使用印刷模型( Typographic Model )對字符進行識別;( 5 )使 用語言模型優(yōu)化字符識別并輸出文字行結(jié)果。該方法的優(yōu)點是無需詞匯表,但是流程仍然繁多且復(fù)雜。
為了進一步提升文字識別的魯棒性, Neumann 和 Matas [27,57] 將字符檢測問題作為一個從極值區(qū)域( Extremal Regions , ERs )集合中進行高效序列選擇的問題。該 ER 檢測器對于模糊、光照、顏色變換、問題變化和低對比度較為魯棒。該算法的具體步驟如下:( 1 )使用一個新的復(fù)雜度較低的特征算子計算每個極值區(qū)域的特征并對齊進行分類,保留局部最大概率的極值區(qū)域;( 2 )使用更大計算量的特征算子對保留下來的極值區(qū)域再進行分類篩選出字符候選區(qū)域;( 3 )使用一個帶有反饋循環(huán)的窮舉搜索算法將極值區(qū)域分組成單詞并選擇出最合適的字符分割;( 4 )使用一個通過合成字體訓(xùn)練的識別模型進行文字識別。該算法通過一系列精巧的設(shè)計來盡可能地降低計算量,使得文字檢測的速度得到了巨大的提升。
為了加強文字檢測和文字識別之間的聯(lián)系, Yao 等人 [58] 提出使用共同的特征和分類方案進行文字檢測和文字識別,然后再使用一個詞匯表搜索算法修正識別結(jié)果。該方法是首個處理水平和多方向文字的端到 端文字 識別算法。
隨著深度學(xué)習(xí)中的目標(biāo)檢測和分類任務(wù)的發(fā)展, Jaderberg 等人 [35] 首先使用一個基于 R-CNN [36] 框架的文字檢測算法提取出文字區(qū)域,然后使用一個基于單詞分類的文字識別算法進行文字識別。
隨著可端到 端訓(xùn)練 的目標(biāo)檢測算法的發(fā)展, Liao 等人 [59] 首先使用他們提出的可端到 端訓(xùn)練 的文字檢測器進行檢測,然后再使用 CRNN 文字識別算法對檢測出的文字區(qū)域進行識別。
上述方法大多數(shù)直接將文字檢測算法和文字識別算法進行串聯(lián),沒有充分利用文字檢測和文字識別之間的相關(guān)性和互補性。
3.2. 單模型的端到端文字識別算法
這類方法將文字檢測模塊和文字識別模塊集成到一個模型中,利用兩個模塊之間的互補性,通過共享特征和聯(lián)合優(yōu)化進一步提升端到 端文字 識別的精度。
Li 等人 [60] 將一個水平文字檢測模塊和一個序列到序列的文字識別模塊集成到一個統(tǒng)一的模型中。該算法能夠?qū)λ轿淖诌M行端到 端文字 識別。同時, Busta 等人 [61] 設(shè)計了一個與 Li 等人 [60] 類似的框架。不過,其檢測模塊能夠處理多方向文字。因此,該算法能夠?qū)Χ喾较蛭淖诌M行端到 端文字 識別。之后 He 等人 [62] 和 Liu 等人 [63] 也采用了相似的框架,通過替換更準(zhǔn)確的檢測器或者更強大的序列到序列的文字識別器來進一步提升精度。
這些方法將文字檢測模塊和文字識別模塊集成到一個模型中,顯著提高了端到 端文字 識別的精度。但是它們?nèi)匀淮嬖趦蓚€不足之處。一是它們并不能完全地進行端到端訓(xùn)練,而需要借助一些課程學(xué)習(xí)或者分階段訓(xùn)練的訓(xùn)練技巧。二是它們僅能處理水平文字或者多方向文字,無法對不規(guī)則形狀文字比如曲 型文字 進行精確的檢測和識別。
總結(jié)
本章對自然場景文字的研究現(xiàn)狀進行了介紹,包括自然場景文字檢測、文字識別和端到端文字識別的相關(guān)研究工作,自然場景文字數(shù)據(jù)集及評價方法和業(yè)界產(chǎn)品。從中可以看出,現(xiàn)有的自然場景文字檢測算法和端到端文字識別算法仍然有較大的局限性。因此,還有以下幾點問題需要解決:
(1)自然場景文字檢測算法的檢測精度和推理速度需要進一步提升。如何在保持方法簡潔快速的前提下提升文字檢測的精度是一個值得研究的問題。
(2)自然場景文字檢測算法對于多方向、極端長寬比和曲型等復(fù)雜形狀的文字的魯棒性仍然需要提升。
(3)現(xiàn)有的復(fù)雜形狀的文字識別算法均是先將文字矯正和編碼為一維序列,再進行識別。在矯正的過程中,不規(guī)則形狀文字發(fā)生了嚴重的形變,容易損失關(guān)鍵信息或者增加額外噪聲。因此,直接在二維空間中進行文字識別是一個值得研究的問題。
(3)目前的端到端文字識別算法對于文字檢測模塊和文字識別模塊的結(jié)合方式的探索仍然處于初級階段。如何充分處理好文字檢測模塊與文字識別模塊的銜接以及充分利用兩者的關(guān)聯(lián)性和互補性,是非常值得探索的。
參考文獻
[1]??? Mori S, Suen C Y, Yamamoto K. Historical Review of OCR Research and Development[J]. Proceedings of the IEEE, 1992, 80(7): 1029–1058.
[2]??? LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278–2323.
[3]??? Fujisawa H. Forty Years of Research in Character and Document Recognition—An Industrial Perspective[J]. Pattern Recognition, Pergamon, 2008, 41(8): 2435–2446.
[4]??? Doermann D, Tombre K. Handbook of Document Image Processing and Recognition[M]. Handbook of Document Image Processing and Recognition, Springer London, 2014.
[5]??? 劉成林. 文檔圖像識別技術(shù)回顧與展望[J]. 數(shù)據(jù)與計算發(fā)展前沿, 2019, 1(06): 17–25.
[6]??? Bissacco A, Cummins M, Netzer Y, et al. PhotoOCR: Reading Text in Uncontrolled Conditions[C]//Proc. ICCV. 2013: 785–792.
[7]??? Rong X, Yi C, Tian Y. Recognizing text-based traffic guide panels with cascaded localization network[C]//Proceedings of the European Conference on Computer Vision Workshop. 2016: 109–121.
[8]??? Greenhalgh J, Mirmehdi M. Recognizing Text-Based Traffic Signs[J]. IEEE Transactions on Intelligent Transportation Systems, 2015, 16(3): 1360–1369.
[9]??? Gonzalez A, Bergasa L M, Yebes J J. Text Detection and Recognition on Traffic Panels From Street-Level Imagery Using Visual Appearance[J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(1): 228–238.
[10]? Liu X, Zhang R, Zhou Y, et al. ICDAR 2019 Robust Reading Challenge on Reading Chinese Text on Signboard[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2019.
[11]? Jarek, Krystyna and Mazurek G. Marketing and Artificial Intelligence[J]. Central European Business Review, Fakulta podnikohospodá?ská, Vysoká ?kola ekonomická v Praze, 2019, 8(2): 46–55.
[12]? Ives B, Cossick K, Adams D. Amazon Go: Disrupting Retail?[J]. Journal of Information Technology Teaching Cases, SAGE Publications Inc., 2019, 9(1): 2–12.
[13]? Xu J, Wu X. A System to Localize and Recognize Texts in Oriented ID Card Images[C]//Proceedings of the 2018 IEEE International Conference on Progress in Informatics and Computing, PIC 2018. Institute of Electrical and Electronics Engineers Inc., 2018: 149–153.
[14]? Cai S, Wen J, Xu H, et al. Bank Card and ID Card Number Recognition in Android Financial APP[G]//International Conference on Smart Computing and Communication. Springer, Cham, 2017: 205–213.
[15]? Lucas S M, Panaretos A, Sosa L, et al. ICDAR 2003 Robust Reading Competitions[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2003: 682–687.
[16]? Shahab A, Shafait F, Dengel A. ICDAR 2011 Robust Reading Competition Challenge 2: Reading Text in Scene Images[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 1491–1496.
[17]? Karatzas D, Shafait F, Uchida S, et al. ICDAR 2013 Robust Reading Competition[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2013: 1484–1493.
[18]? Karatzas D, Gomez-Bigorda L, Nicolaou A, et al. ICDAR 2015 Competition on Robust Reading[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2015: 1156–1160.
[19]? Shi B, Yao C, Liao M, et al. ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2017, 1: 1429–1434.
[20]? 白翔, 楊明錕, 石葆光, 廖明輝. 基于深度學(xué)習(xí)的場景文字檢測與識別[J]. 中國科學(xué):信息科學(xué), 2018, 48(05): 531–544.
[21]? Long S, He X, Yao C. Scene Text Detection and Recognition: The Deep Learning Era[J]. Proceedings of the International Journal of Computer Vision, 2021, 129(1): 161–184.
[22]? Zhong Y, Karu K, Jain A K. Locating Text in Complex Color Images[J]. Pattern Recognition, Pergamon, 1995, 28(10): 1523–1535.
[23]? Kim K I, Jung K, Kim J H. Texture-Based Approach for Text Detection in Images Using Support Vector Machines and Continuously Adaptive Mean Shift Algorithm[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(12): 1631–1639.
[24]? Gllavata J, Ewerth R, Freisleben B. Text Detection in Images Based on Unsupervised Classification of High-Frequency Wavelet Coefficients[C]//Proceedings of the International Conference on Pattern Recognition. Institute of Electrical and Electronics Engineers Inc., 2004, 1: 425–428.
[25]? Neumann L, Matas J. Text Localization in Real-World Images Using Efficiently Pruned Exhaustive Search[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2011: 687–691.
[26]? Neumann L, Matas J. A Method for Text Localization and Recognition in Real-World Images[C]//Proceedings of the Asian Conference on Computer Vision. 2011: 770–783.
[27]? Neumann L, Matas J. Real-Time Scene Text Localization and Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2012: 3538–3545.
[28]? Epshtein B, Ofek E, Wexler Y. Detecting Text in Natural Scenes with Stroke Width Transform[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2010: 2963–2970.
[29]? Huang W, Lin Z, Yang J, et al. Text Localization in Natural Images Using Stroke Feature Transform and Text Covariance Descriptors[C]//Proceedings of the IEEE International Conference on Computer Vision. 2013: 1241–1248.
[30]? Bai X, Yao C, Liu W. Strokelets: A Learned Multi-Scale Mid-Level Representation for Scene Text Recognition[J]. IEEE Transactions on Image Processing, 2016, 25(6): 2789–2802.
[31]? Alsharif O, Pineau J. End-to-End Text Recognition with Hybrid HMM Maxout Models[C]//Proceedings of the International Conference on Learning Representations. 2014.
[32]? Mishra A, Alahari K, Jawahar C v. Top-Down and Bottom-Up Cues for Scene Text Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2012: 2687–2694.
[33]? Matas J, Chum O, Urban M, et al. Robust Wide-Baseline Stereo from Maximally Stable Extremal Regions[J]. Image and Vision Computing, 2004, 22(10 SPEC. ISS.): 761–767.
[34]? Wang K, Babenko B, Belongie S. End-to-End Scene Text Recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. 2011: 1457–1464.
[35]? Jaderberg M, Simonyan K, Vedaldi A, et al. Reading Text in the Wild with Convolutional Neural Networks[J]. International Journal of Computer Vision, 2016, 116(1): 1–20.
[36]? Girshick R, Donahue J, Darrell T, et al. Region-Based Convolutional Networks for Accurate Object Detection and Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(1): 142–158.
[37]? Zitnick C L, Dollár P. Edge Boxes: Locating Object Proposals from Edges[C]//Proceedings of the European Conference on Computer Vision. Springer, Cham, 2014: 391–405.
[38]? Bin Yang, Yan J, Lei Z, et al. Aggregate Channel Features for Multi-View Face Detection[C]//IEEE International Joint Conference on Biometrics. IEEE, 2014: 1–8.
[39]? Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2005, 1: 886–893.
[40]? Gupta A, Vedaldi A, Zisserman A. Synthetic Data for Text Localisation in Natural Images[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 2315–2324.
[41]? Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-Time Object Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 779–788.
[42]? Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]//Proceedings of the European Conference on Computer Vision. 2016: 56–72.
[43]? Yao C, Bai X, Liu W, et al. Detecting Texts of Arbitrary Orientations in Natural Images[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2012: 1083–1090.
[44]? Zhang Z, Zhang C, Shen W, et al. Multi-oriented Text Detection with Fully Convolutional Networks[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 4159–4167.
[45]? Shi B, Bai X, Belongie S. Detecting Oriented Text in Natural Images by Linking Segments[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 3482–3490.
[46]? Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 2642–2651.
[47]? Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]//Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015, 9351: 234–241.
[48] Hong S, Roh B, Kim K-H, et al. PVANet: Lightweight Deep Neural Networks for Real-time Object Detection[J]. CoRR, 2016: abs/1611.08588.
[49]? Liu Y, Jin L. Deep Matching Prior Network: Toward Tighter Multi-Oriented Text Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 3454–3461.
[50]? Jaderberg M, Simonyan K, Vedaldi A, et al. Synthetic Data and Artificial Neural Networks for Natural Scene Text Recognition[J]. CoRR, 2014, abs/1406.2.
[51]? Shi B, Bai X, Yao C. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298–2304.
[52]? Graves A, Fernández S, Gomez F, et al. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks[C]//ACM International Conference Proceeding Series. 2006, 148: 369–376.
[53]? Shi B, Wang X, Lyu P, et al. Robust Scene Text Recognition with Automatic Rectification[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 4168–4176.
[54]? Jaderberg M, Simonyan K, Zisserman A, et al. Spatial Transformer Networks[C]//Advances in Neural Information Processing Systems. 2015: 2017–2025.
[55]? Bai F, Cheng Z, Niu Y, et al. Edit probability for scene text recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 1508–1516.
[56]? Cheng Z, Xu Y, Bai F, et al. AON: Towards Arbitrarily-Oriented Text Recognition[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5571–5579.
[57]? Neumann L, Matas J. Real-Time Lexicon-Free Scene Text Localization and Recognition[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. 2016, 38(9): 1872–1885.
[58]? Yao C, Bai X, Liu W. A Unified Framework for Multioriented Text Detection and Recognition[J]. IEEE Transactions on Image Processing, IEEE, 2014, 23(11): 4737–4749.
[59]? Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[C]//Proceedings of the Association for the Advance of Artificial Intelligence. 2017: 4161–4167.
[60]? Li H, Wang P, Shen C. Towards End-to-End Text Spotting with Convolutional Recurrent Neural Networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017(2): 5248–5256.
[61]? Busta M, Neumann L, Matas J. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017, 2017-Octob: 2223–2231.
[62]? He T, Tian Z, Huang W, et al. An End-to-End Textspotter with Explicit Alignment and Attention[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5020–5029.
[63]? Liu X, Liang D, Yan S, et al. FOTS: Fast Oriented Text Spotting with a Unified Network[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5676–5685.
想了解更多的AI技術(shù)干貨,歡迎上華為云的AI專區(qū),目前有AI編程Python等六大實戰(zhàn)營(http://su.modelarts.club/qQB9)供大家免費學(xué)習(xí)。
EI企業(yè)智能 EI智能體 Image OCR
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。