技術綜述十三:彎曲文本檢測算法(一)
背景介紹
文本檢測是文本讀取識別的第一步,對后續的文本識別有著重大的影響。一般場景下,可以通過對通用目標檢測算法進行配置修改,來實現對文本行的檢測定位。然而在彎曲文字場景,通用目標檢測算法無法實現對文字邊框的精準表述。因此,近年來很多學術論文都提出了新穎的解決場景文字檢測的算法,主要包括兩種思路:1. 基于區域重組的文本檢測;2. 基于像素分割的文本檢測。本文主要介紹基于區域重組的文本檢測算法。
PixelLink
PixelLink主要是針對相鄰文本難以分離這個問題而提出的。該方法主要是預測文本/非文本區域,以及每個像素和它的上、下、左、右、左上、右上、左下、右下的像素之間的連接關系。在推理階段,被預測為文本的像素和與該像素具有連接關系的像素被連接在一起。最后每個連接組件的最小外接矩形作為文本邊框。
圖1. PinxelLink 算法框架
TextSnake
TextSnake 主要是針對使用四邊形框不能有效地檢測任意形狀文本而提出的。該方法使用一系列重疊的圓盤來表示文本區域,每個圓盤有特定的圓心、半徑、方向。如圖1所示,通過預測文本區域、文本中心線(實際上是中心區域)、文本中心線上每個點對應的半徑以及角度來重建文本輪廓。后處理階段需要從預測的文本中心區域獲得多個中心點作為圓盤的圓心,然后根據圓心對應的半徑畫圓,最后將所有圓的輪廓包圍起來得到最終的文本邊界框。
圖2. TextSnake 文本表征方法
圖3. 中心點機制
獲得圓盤中心點的步驟如圖3所示,首先在預測的文本中心區域隨機取一個點,然后根據預測的方向做該點的切線和法線,法線和文本中心區域的兩端的交點的中點(圖(a)的紅點)即是該處的中心點(作為圓盤的圓心)。中心點沿著兩個相反的方向前進一定的步長,得到兩個新的點,而后根據這兩個新的點再尋找對應的中點。以此類推,直到進行到文本中心區域的兩端。
該方法能有效地檢測任意形狀、方向的文本,但是后處理比較復雜且耗時。
CRAFT
CRAFT主要是針對基于字符級的文本檢測方法對于曲形文本檢測存在限制的問題而提出的,但同樣適用于彎曲文本檢測。該論文的思路是通過回歸字符和字符間的親和力來檢測任意形狀文本,這里的親和力是用于表示相鄰的字符是否屬于同一個文本實例。此外,由于很多數據集沒有提供字符級標注,本文提出一個弱監督算法來從字級標注中生成字符級標注。
圖4. CRAFT網絡架構
如圖4所示,字符區域和相鄰字符親和力都是通過一個通道進行回歸得到。
圖5. CRAFT 字符區域的ground-truth生成方法
用于訓練模型的字符區域得分和親和力得分的ground truth生成過程如圖5所示。對于字符區域得分,首先生成一個2D高斯圖,然后計算該高斯圖變換到對應的字符框的透視變換矩陣,最后使用這個矩陣將2D高斯圖變換到相應的字符區域。對于親和力得分的ground-truth的生成也是使用相同的方法,前提只需要獲得親和力框。獲得親和力框的過程如下:1. 每個字符框連接對角線將字符框劃分為4個三角形,取上下方的三角形的中心作為親和力框的頂點。2.相鄰兩個字符框得到的2個上三角形和下三角形的中心作為四邊形的頂點構成了一個親和力邊框。
弱監督字符生成算法生成字符偽標簽的過程: 1. 使用在合成數據集訓練好的模型預測剪裁下來的文本區域的字符區域得分;2. 使用分水嶺算法得到每個字符區域;3. 將坐標變換到原圖得到實際的字符邊框坐標。
圖6. CRAFT 弱監督學習過程
后處理:在推理階段,預測出字符和親和力圖之后,置信度大于指定閾值的字符區域和親和力區域都被置為1。然后標記每個連通區域。最后,對于四邊形文本,使用最小外界矩形作為邊框。
圖7. 彎曲文本邊框重組過程。
對于曲形文本,獲得文本輪廓的過程如圖7所示:第一步是沿著字符的方向找到每個字符區域的局部最長線;每條線的中心連接起來的線為中心線;每條局部最長線旋轉到與中心線垂直;兩端的線移動到文本區域的兩端;將所有端點連接得到曲形文本邊框。
本文主要介紹了基于區域重組的文本檢測算法,下篇文章將繼續介紹基于像素分割的文本檢測算法,敬請關注。
Reference
[1]. Deng D, Liu H, Li X, et al. Pixellink: Detecting scene text via instance segmentation[C] //Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).
[2]. Long S, Ruan J, Zhang W, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 20-36.
[3]. Baek Y, Lee B, Han D, et al. Character region awareness for text detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 9365-9374.
想了解更多的AI技術干貨,歡迎上華為云的AI專區,目前有AI編程Python等六大實戰營(http://su.modelarts.club/qQB9)供大家免費學習
EI企業智能 EI智能體 Image OCR
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。