論文解讀二十六:基于視覺匹配的自適應文本識別
1.引言
本文工作目標是增強文本識別的泛化和靈活性,之前的文本識別方法[1,2,3,4]在很多的單一場景下都取得了很好的效果,但是一旦推廣到另一個包含新字體和新語言的場景,要么需要使用大量數據重新訓練,要么需要針對每個新樣本進行微調。
本文基于一個關鍵點:文本是有限數量離散實體的重復序列,重復的實體是文本字符串中的字符和字形,即文本行圖像中字符/符號的視覺表示。本文假設可以訪問字形示例(即字符的裁剪圖像),并要求視覺編碼器在給定的文本行圖像中定位這些重復的字形。視覺編碼器的輸出是一個相似度圖,它將文本行中每個空間位置與字母表中每個字形的視覺相似度編碼,如圖1所示。解碼器提取該相似度圖以推斷最可能的字符串。圖2總結了所提出的方法。
圖1 用于文本識別的視覺匹配。當前的文本識別模型從預定義(固定)字母表中學習特定于字符形狀(字形)的判別特征。我們訓練我們的模型來建立給定字符字形(頂部)和要識別的文本行圖像(左側)之間的視覺相似性。這使得模型高度適應未見過的新字形、新字母表(不同的語言),并且無需進一步訓練即可擴展到新的字符類,例如英語→希臘語。更亮的顏色對應于更高的視覺相似性。
圖2 自適應視覺匹配的架構。本文將文本識別問題轉化為文本行圖片中字形樣本的視覺匹配問題。左圖:體系結構圖。視覺編碼器 Φ 嵌入字形 g 和文本行 x ,并生成相似性映射S,該映射S對每個字形的相似性進行評分。然后,解決(潛在)不完全視覺匹配中的模糊性,以產生增強的相似性映射S*。最后,使用M中包含的真實字形寬度,將相似性分數聚合到輸出類概率P。右圖:說明字形寬度如何編碼到模型中。字形寬度帶(頂部)的高度與其相應字形示例的寬度相同,其標量值是以像素為單位的字形寬度。字形寬度映射(底部)是一個二進制矩陣,字母表A中的每個字符都有一列;這些列通過將相應的行設置為非零值(=1)來指示字形線圖像中字形的范圍。
2.模型結構
本文的模型通過視覺匹配定位給定的文本行圖像中的字形樣本來識別給定的文本行圖像。它將文本行圖像和包含一組樣本的字母圖像作為輸入,并預測N個類上的概率序列作為輸出,其中N等于字母圖像中給出的樣本數。對于推理,字形線圖像是通過并排連接參考字體的單個字符字形來組裝的,然后可以讀取該字體中的文本線。
該模型有兩個主要部分:(1)視覺相似性編碼器(第2.1節),它輸出編碼文本行圖像中每個字形的相似性的相似性圖,和(2)一個與字母無關的解碼器(第2.2節),它接收這個相似性映射以推斷最可能的字符串。在第2.3節中,我們詳細介紹了訓練目標。圖2給出了模型的簡明示意圖。
2.1 視覺相似性編碼器
輸入:所有目標字母的字形;要識別的文本行圖像
目的:得到目標字母的字形在要識別的文本行圖像中的位置
使用視覺編碼器 Φ 對字形 g 和文本行 x 進行編碼,并且生成相似圖 S ,表示每一個字形和文本行的每一個位置的相似度。使用余弦距離計算相似度。
編碼器使用有兩個殘差塊的U-Net網絡實現,視覺相似度圖由文本行和字形行圖像沿編碼特征寬度的所有位置之間的余弦距離得到。
2.2 字母無關編碼器
字母無關解碼器將相似性映射離散為沿文本行圖像寬度的所有空間位置的樣本中每個字形的概率。
一個簡單的實現將預測在相似性映射中每個字形的范圍上聚合的相似性得分的argmax或總和。然而,這種策略并不能克服相似性中的模糊性,也不能產生平滑/一致的字符預測。因此分兩個步驟進行:首先,相似性消歧義通過考慮線圖像中的字形寬度和位置,解決字母表中字形的歧義,產生增強的相似性映射(S*),其次,類聚合器通過聚合S*中每個字形的空間范圍內的分數來計算字形概率。
消除相似性歧義
理想的相似性映射具有高相似性的方形區域。這是因為字形和文本行圖像中字符的寬度將相同。因此將字形寬度與局部的x、y坐標一起使用小型MLP編碼到相似度圖中。x、y坐標的兩個通道(標準化為[0,1])和字形寬度堆疊起來輸入到MLP中。為了消歧義,本文使用一個自我注意模塊并輸出與S相同大小的增強相似性的映射S*。
類聚合器
將相似圖S*映射到每個字形對應的示例字形的概率S?→P,通過乘矩陣M實現 P = MS?,其中
非零值對應于字形圖像中第i個字形的寬度。
推理階段
在推理階段使用貪婪算法解碼。
3.訓練損失函數
使用CTC損失監督字形示例P,以將預測與輸出標簽對齊。還在每個位置使用輔助交叉熵損失(L sim)來監督視覺編碼器S的相似性映射輸出。使用真實字符邊界框來確定每個字符的空間跨度。總體訓練由以下兩部分損失組成。
4.實驗結果
本文與目前為止最新的文本識別模型進行了比較,然后推廣到新的字體和語言。
圖3 VS-1、VS-2:泛化到具有/不具有已知測試字形和增加訓練字體數量的新字體。FontSynth測試集上的錯誤率(以%為單位;數值越低說明模型效果更好)。Ours-cross代表交叉字體匹配,其中測試字形未知,訓練字體被用作字形樣本,當樣本字體從訓練集中隨機選擇時顯示mean和standard-dev,selected顯示基于置信度自動選擇的最佳匹配示例的結果。R、B、L和I對應于FontSynth訓練集中的Regular,Bold,Light,Italic;OS代表Omniglot-Seq數據集。
圖4 VS-3:從合成數據到真實數據的推廣。Google1000英文文檔中僅在合成數據上訓練模型的平均錯誤率(%;↓更好)。LM代表6-gram語言模型。
5.結論
本文提出一種文本識別方法,它可以推廣到全新的的字體視覺風格(字體、顏色、背景等),并且不與特定的字母大小/語言掛鉤。它通過將經典文本識別重新塑造為視覺匹配識別來實現這一目標,本文已經證明了匹配可以利用隨機形狀/字形進行訓練。本文的模型可能是第一個one-shot序列識別的模型,與傳統的文本識別方法相比擁有卓越的泛化能力,而不需要昂貴的適配/微調。雖然該方法已經被證明用于文本識別,但它適用于其他序列識別問題,如語音和動作識別。
參考文獻
[1] Jeonghun Baek, Geewook Kim, Junyeop Lee, Sungrae Park, Dongyoon Han, Sangdoo Yun, Seong Joon Oh, and Hwalsuk Lee. What is wrong with scene text recognition model comparisons? dataset and model analysis. In Proc. ICCV, 2019.
[2] Zhanzhan Cheng, Yangliu Xu, Fan Bai, Yi Niu, Shiliang Pu, and Shuigeng Zhou. Aon: Towards arbitrarily-oriented text recognition. In Proc. CVPR, 2018.
[3] Chen-Yu Lee and Simon Osindero. Recursive recurrent nets with attention modeling for OCR in the wild. In Proc. CVPR, 2016.
[4] Baoguang Shi, Mingkun Yang, Xinggang Wang, Pengyuan Lyu, Cong Yao, and Xiang Bai. Aster: An attentional scene text recognizer with flexible rectification. TPAMI, 2018.
EI企業智能 EI智能體 Image OCR
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。