自然場景文本檢測識別技術綜述
應用概述
應用概述
OCR(Optical Character Recognition, 光學字符識別)傳統上指對輸入掃描文檔圖像進行分析處理,識別出圖像中文字信息。場景文字識別(Scene Text Recognition,STR) 指識別自然場景圖片中的文字信息。自然場景圖像中的文字識別,其難度遠大于掃描文檔圖像中的文字識別,因為它的文字展現形式極其豐富:
·允許多種語言文本混合,字符可以有不同的大小、字體、顏色、亮度、對比度等。
·文本行可能有橫向、豎向、彎曲、旋轉、扭曲等式樣。
·圖像中的文字區域還可能會產生變形(透視、仿射變換)、殘缺、模糊等現象。
·自然場景圖像的背景極其多樣。如文字可以出現在平面、曲面或折皺面上;文字區域附近有復雜的干擾紋理、或者非文字區域有近似文字的紋理,比如沙地、草叢、柵欄、磚墻等。
(本圖摘自新浪微博《光學字符識別技術:讓電腦像人一樣閱讀》)
也有人用OCR技術泛指所有圖像文字檢測和識別技術, 包括傳統OCR技術與場景文字識別技術。這是因為,場景文字識別技術可以被看成是傳統OCR技術的自然演進與升級換代。
圖像文字檢測和識別技術有著廣泛的應用場景。已經被互聯網公司落地的相關應用涉及了識別名片、識別菜單、識別快遞單、識別身份證、識別營業證、識別銀行卡、識別車牌、識別路牌、識別商品包裝袋、識別會議白板、識別廣告主干詞、識別試卷、識別單據等等。
已經有不少服務商在提供圖像文字檢測和識別服務,這些服務商既包括了騰訊、百度、阿里、微軟、亞馬遜、谷歌等大型云服務企業,也包括了一些活躍在物流、教育、安防、視頻直播、電子政務、電子商務、旅游導航等垂直細分行業的服務企業。這些企業既可以使用提前訓練好的模型直接提供場景圖文識別、卡證識別、掃描文檔識別等云服務,也可以使用客戶提供的數據集訓練定制化模型(如票據識別模型),以及提供定制化AI服務系統集成等。
如下圖所示,傳統技術解決方案中,是先分別訓練文字檢測和文本識別兩個模型,然后在服務實施階段將這兩個模型串聯到數據流水線中組成圖文識別系統。
如下圖所示,最近流行的技術解決方案中,是用一個多目標網絡直接訓練出一個端到端的模型。在訓練階段,該模型的輸入是訓練圖像及圖中文本坐標、文本內容,模型優化目標是輸出端邊框坐標預測誤差與文本內容預測誤差的加權和。在服務實施階段,原始圖片流過該模型直接輸出預測文本信息。相比于傳統方案,該方案中模型訓練效率更高、服務運營階段資源開銷更少。
文本檢測和識別技術處于一個學科交叉點,其技術演進不斷受益于計算機視覺處理和自然語言處理兩個領域的技術進步。它既需要使用視覺處理技術來提取圖像中文字區域的圖像特征向量,又需要借助自然語言處理技術來解碼圖像特征向量為文字結果。
模型基礎
從公開論文中可以看到,起源于圖像分類、檢測、語義分割等視覺處理任務的各個基礎網絡(backbone network),紛紛被征用來提取圖像中文字區域的特征向量。同時,起源于物體檢測、語義分割任務的多個網絡框架,也被改造后用于提升圖文識別任務中的準確率和執行速度。本章將簡單溫習一下這些基礎網絡、網絡框架的實現原理,并介紹圖文識別任務中應用它們時所面臨的各種場景適配問題。
基礎網絡
圖文識別任務中充當特征提取模塊的基礎網絡,可以來源于通用場景的圖像分類模型。例如,VGGNet,ResNet、InceptionNet、DenseNet、Inside-Outside Net、Se-Net等。
圖文識別任務中的基礎網絡,也可以來源于特定場景的專用網絡模型。例如,擅長提取圖像細節特征的FCN網絡,擅長做圖形矯正的STN網絡。
由于大家對通用網絡模型已經很熟悉,所以本節只簡單介紹上述專用網絡模型。
FCN網絡
全卷積網絡(FCN,fully convolutional network), 是去除了全連接(fc)層的基礎網絡,最初是用于實現語義分割任務。FCN的優勢在于利用反卷積(deconvolution)、上池化(unpooling)等上采樣(upsampling)操作,將特征矩陣恢復到接近原圖尺寸,然后對每一個位置上的像素做類別預測,從而能識別出更清晰的物體邊界。基于FCN的檢測網絡,不再經過候選區域回歸出物體邊框, 而是根據高分辨率的特征圖直接預測物體邊框。因為不需要像Faster-RCNN那樣在訓練前定義好候選框長寬比例,FCN在預測不規則物體邊界時更加魯棒。由于FCN網絡最后一層特征圖的像素分辨率較高,而圖文識別任務中需要依賴清晰的文字筆畫來區分不同字符(特別是漢字),所以FCN網絡很適合用來提取文本特征。當FCN被用于圖文識別任務時,最后一層特征圖中每個像素將被分成文字行(前景)和非文字行(背景)兩個類別。
(選自arXiv:1411.4038,’ Fully Convolutional Networks for Semantic Segmentation’)
STN網絡
空間變換網絡(STN,Spatial Transformer Networks)的作用是對輸入特征圖進行空間位置矯正得到輸出特征圖,這個矯正過程是可以進行梯度傳導的,從而能夠支持端到端的模型訓練。
如下圖所示,STN網絡由定位網絡(Localization Network)?,網格生成器(Grid generator),采樣器(Sampler)共3個部分組成。定位網絡根據原始特征圖U計算出一套控制參數,網格生成器這套控制參數產生采樣網格(sampling grid),采樣器根據采樣網格核函數將原始圖U中像素對應采樣到目標圖V中。
空間變換的控制參數是根據原始特征圖U動態生成的,生成空間變換控制參數的元參數則是在模型訓練階段學習到的、并且存放于定位網絡的權重(weights)矩陣中。
(選自arXiv: 1506.02025,’Spatial Transformer Networks’)
檢測網絡框架
Faster RCNN作為一個檢測網絡框架,其目標是尋找緊湊包圍被檢測對象的邊框(BBOX,Bounding Box)。如下圖所示,它在Fast RCNN檢測框架基礎上引入區域建議網絡(RPN,Region Proposal Network),來快速產生與目標物體長寬比例接近的多個候選區域參考框(anchor);它通過ROI(Region of Interest) Pooling層為多種尺寸參考框產生出歸一化固定尺寸的區域特征;它利用共享的CNN卷積網絡同時向上述RPN網絡和ROI Pooling層輸入特征映射(Feature Maps),從而減少卷積層參數量和計算量。訓練過程中使用到了多目標損失函數,包括RPN網絡、ROI Pooling層的邊框分類loss和坐標回歸loss。通過這些loss的梯度反向傳播,能夠調節候選框的坐標、并增大它與標注對象邊框的重疊度/交并比(IOU,Intersection over Union)。RPN網格生成的候選框初始值有固定位置以及長寬比例。如果候選框初始長寬比例設置得與圖像中物體形狀差別很大,就很難通過回歸找到一個緊湊包圍它的邊框。
(摘自arXiv:1506.01497,’Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks’)
SSD(Single Shot MultiBox Detector),是2016年提出的一種全卷積目標檢測算法,截止到目前仍是主要的目標檢測框架之一,相比Faster RCNN有著明顯的速度優勢。如下圖所示,SSD是一種one stage算法,直接預測被檢測對象的邊框和得分。檢測過程中,SSD算法利用多尺度思想進行檢測,在不同尺度的特征圖(feature maps)上產生與目標物體長寬比例接近的多個默認框(Default boxes),進行回歸與分類。最后利用非極大值抑制(Non-maximum suppression)得到最終的檢測結果。訓練過程中,SSD采用Hard negative mining策略進行訓練,使正負樣本比例保持為1:3,同時使用多種數據增廣(Data augmentation)方式進行訓練,提高模型性能。
(摘自arxiv: 1512.02325,? “SSD: Single Shot MultiBox Detector”)
文本檢測模型
文本檢測模型的目標是從圖片中盡可能準確地找出文字所在區域。
但是,視覺領域常規物體檢測方法(SSD, YOLO, Faster-RCNN等)直接套用于文字檢測任務效果并不理想, 主要原因如下:
·相比于常規物體,文字行長度、長寬比例變化范圍很大。
·文本行是有方向性的。常規物體邊框BBox的四元組描述方式信息量不充足。
·自然場景中某些物體局部圖像與字母形狀相似,如果不參考圖像全局信息將有誤報。
·有些藝術字體使用了彎曲的文本行,而手寫字體變化模式也很多。
·由于豐富的背景圖像干擾,手工設計特征在自然場景文本識別任務中不夠魯棒。
針對上述問題根因,近年來出現了各種基于深度學習的技術解決方案。它們從特征提取、區域建議網絡(RPN)、多目標協同訓練、Loss改進、非極大值抑制(NMS)、半監督學習等角度對常規物體檢測方法進行改造,極大提升了自然場景圖像中文本檢測的準確率。例如:
·CTPN方案中,用BLSTM模塊提取字符所在圖像上下文特征,以提高文本塊識別精度。
·RRPN等方案中,文本框標注采用BBOX +方向角度值的形式,模型中產生出可旋轉的文字區域候選框,并在邊框回歸計算過程中找到待測文本行的傾斜角度。
·DMPNet等方案中,使用四邊形(非矩形)標注文本框,來更緊湊的包圍文本區域。
·SegLink? 將單詞切割為更易檢測的小文字塊,再預測鄰近連接將小文字塊連成詞。
·TextBoxes等方案中,調整了文字區域參考框的長寬比例,并將特征層卷積核調整為長方形,從而更適合檢測出細長型的文本行。
·WordSup方案中,采用半監督學習策略,用單詞級標注數據來訓練字符級文本檢測模型。
下面用近年來出現的多個模型案例,介紹如何應用上述各方法提升圖像文本檢測的效果。
CTPN模型
CTPN是目前流傳最廣、影響最大的開源文本檢測模型,可以檢測水平或微斜的文本行。文本行可以被看成一個字符sequence,而不是一般物體檢測中單個獨立的目標。同一文本行上各個字符圖像間可以互為上下文,在訓練階段讓檢測模型學習圖像中蘊含的這種上下文統計規律,可以使得預測階段有效提升文本塊預測準確率。CTPN模型的圖像預測流程中,前端使用當時流行的VGG16做基礎網絡來提取各字符的局部圖像特征,中間使用BLSTM層提取字符序列上下文特征,然后通過FC全連接層,末端經過預測分支輸出各個文字塊的坐標值和分類結果概率值。在數據后處理階段,將合并相鄰的小文字塊為文本行。
(選自arXiv: 1609.03605,’Detecting Text in Natural Image with Connectionist Text Proposal Network’)
RRPN模型
基于旋轉區域候選網絡(RRPN, Rotation Region Proposal Networks)的方案,將旋轉因素并入經典區域候選網絡(如Faster RCNN)。這種方案中,一個文本區域的ground truth被表示為具有5元組(x,y,h,w,θ)的旋轉邊框, 坐標(x,y)表示邊框的幾何中心, 高度h設定為邊框的短邊,寬度w為長邊,方向是長邊的方向。訓練時,首先生成含有文本方向角的傾斜候選框,然后在邊框回歸過程中學習文本方向角。
(選自arXiv: 1703.01086,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)
RRPN中方案中提出了旋轉感興趣區域(RRoI,Rotation Region-of-Interest)池化層,將任意方向的區域建議先劃分成子區域,然后對這些子區域分別做max pooling、并將結果投影到具有固定空間尺寸小特征圖上。
(選自arXiv: 1703.01086,’Arbitrary-Oriented Scene Text Detection via Rotation Proposals’)
FTSN模型
FTSN(Fused Text Segmentation Networks)模型使用分割網絡支持傾斜文本檢測。它使用Resnet-101做基礎網絡,使用了多尺度融合的特征圖。標注數據包括文本實例的像素掩碼和邊框,使用像素預測與邊框檢測多目標聯合訓練。
(選自arXiv: 1709.03272,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)
基于文本實例間像素級重合度的Mask-NMS, 替代了傳統基于水平邊框間重合度的NMS算法。下圖左邊子圖是傳統NMS算法執行結果,中間白色邊框被錯誤地抑制掉了。下圖右邊子圖是Mask-NMS算法執行結果, 三個邊框都被成功保留下來。
(選自arXiv: 1709.03272,’Fused Text Segmentation Networks for Multi-oriented Scene Text Detection’)
DMPNet模型
DMPNet(Deep Matching Prior Network)中,使用四邊形(非矩形)來更緊湊地標注文本區域邊界,其訓練出的模型對傾斜文本塊檢測效果更好。
如下圖所示,它使用滑動窗口在特征圖上獲取文本區域候選框,候選框既有正方形的、也有傾斜四邊形的。接著,使用基于像素點采樣的Monte-Carlo方法,來快速計算四邊形候選框與標注框間的面積重合度。然后,計算四個頂點坐標到四邊形中心點的距離,將它們與標注值相比計算出目標loss。文章中推薦用Ln loss來取代L1、L2 loss,從而對大小文本框都有較快的訓練回歸(regress)速度。
(選自arXiv:1703.01425,’Deep?Matching?Prior?Network: Toward Tighter Multi-oriented Text Detection’)
EAST模型
EAST(Efficient and Accuracy Scene Text detection pipeline)模型中,首先使用全卷積網絡(FCN)生成多尺度融合的特征圖,然后在此基礎上直接進行像素級的文本塊預測。該模型中,支持旋轉矩形框、任意四邊形兩種文本區域標注形式。對應于四邊形標注,模型執行時會對特征圖中每個像素預測其到四個頂點的坐標差值。對應于旋轉矩形框標注,模型執行時會對特征圖中每個像素預測其到矩形框四邊的距離、以及矩形框的方向角。
根據開源工程中預訓練模型的測試,該模型檢測英文單詞效果較好、檢測中文長文本行效果欠佳。或許,根據中文數據特點進行針對性訓練后,檢測效果還有提升空間。
上述過程中,省略了其他模型中常見的區域建議、單詞分割、子塊合并等步驟,因此該模型的執行速度很快。
(選自arXiv: 1704.03155,’EAST: An Efficient and Accurate Scene Text Detector’)
SegLink模型
SegLink模型的標注數據中,先將每個單詞切割為更易檢測的有方向的小文字塊(segment),然后用鄰近連接(link?)將各個小文字塊連接成單詞。這種方案方便于識別長度變化范圍很大的、帶方向的單詞和文本行,它不會象Faster-RCNN等方案因為候選框長寬比例原因檢測不出長文本行。相比于CTPN等文本檢測模型,SegLink的圖片處理速度快很多。
(選自arXiv: 1703.06520,’Detecting Oriented Text in Natural Images by Linking Segments’)
如下圖所示,該模型能夠同時從6種尺度的特征圖中檢測小文字塊。同一層特征圖、或者相鄰層特征圖上的小文字塊都有可能被連接入同一個單詞中。換句話說,位置鄰近、并且尺寸接近的文字塊都有可能被預測到同一單詞中。
(選自arXiv: 1703.06520,’Detecting Oriented Text in Natural Images by Linking Segments’)
PixelLink模型
自然場景圖像中一組文字塊經常緊挨在一起,通過語義分割方法很難將它們識別開來,所以PixelLink模型嘗試用實例分割方法解決這個問題。
該模型的特征提取部分,為VGG16基礎上構建的FCN網絡。模型執行流程如下圖所示。首先,借助于CNN 模塊執行兩個像素級預測:一個文本二分類預測,一個鏈接二分類預測。接著,用正鏈接去連接鄰居正文本像素,得到文字塊實例分割結果。然后,由分割結果直接就獲得文字塊邊框, 而且允許生成傾斜邊框。
上述過程中,省掉了其他模型中常見的邊框回歸步驟,因此訓練收斂速度更快些。訓練階段,使用了平衡策略,使得每個文字塊在總LOSS中的權值相同。訓練過程中,通過預處理增加了各種方向角度的文字塊實例。
(選自arXiv: 1801.01315,’Detecting Scene Text via Instance Segmentation’)
Textboxes/Textboxes++模型
Textboxes是基于SSD框架的圖文檢測模型,訓練方式是端到端的,運行速度也較快。如下圖所示,為了適應文字行細長型的特點,候選框的長寬比增加了1,2,3,5,7,10這樣初始值。為了適應文本行細長型特點,特征層也用長條形卷積核代替了其他模型中常見的正方形卷積核。為了防止漏檢文本行,還在垂直方向增加了候選框數量。為了檢測大小不同的字符塊,在多個尺度的特征圖上并行預測文本框, 然后對預測結果做NMS過濾。
(選自arXiv: 1611.06779,’TextBoxes: A Fast Text Detector with a Single Deep Neural Network’)
Textboxes++是Textboxes的升級版本,目的是增加對傾斜文本的支持。為此,將標注數據改為了旋轉矩形框和不規則四邊形的格式;對候選框的長寬比例、特征圖層卷積核的形狀都作了相應調整。
(選自arXiv: 1801.02765,’TextBoxes++: A Single-Shot Oriented Scene Text Detector’)
WordSup模型
如下圖所示,在數學公式圖文識別、不規則形變文本行識別等應用中,字符級檢測模型是一個關鍵基礎模塊。由于字符級自然場景圖文標注成本很高、相關公開數據集稀少,導致現在多數圖文檢測模型只能在文本行、單詞級標注數據上做訓練。WordSup提出了一種弱監督的訓練框架, 可以文本行、單詞級標注數據集上訓練出字符級檢測模型。
如下圖所示,WordSup弱監督訓練框架中,兩個訓練步驟被交替執行:給定當前字符檢測模型,并結合單詞級標注數據,計算出字符中心點掩碼圖; 給定字符中心點掩碼圖,有監督地訓練字符級檢測模型.
(選自arXiv: 1708.06720,’WordSup: Exploiting Word Annotations for Character based Text Detection’)
文本識別模型
文本識別模型的目標是從已分割出的文字區域中識別出文本內容。
CRNN模型
CRNN(Convolutional Recurrent Neural Network)是目前較為流行的圖文識別模型,可識別較長的文本序列。它包含CNN特征提取層和BLSTM序列特征提取層,能夠進行端到端的聯合訓練。 它利用BLSTM和CTC部件學習字符圖像中的上下文關系, 從而有效提升文本識別準確率,使得模型更加魯棒。預測過程中,前端使用標準的CNN網絡提取文本圖像的特征,利用BLSTM將特征向量進行融合以提取字符序列的上下文特征,然后得到每列特征的概率分布,最后通過轉錄層(CTC rule)進行預測得到文本序列。
(選自arXiv: 1507.05717,’An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’)
RARE模型
RARE(Robust text recognizer with Automatic Rectification)模型在識別變形的圖像文本時效果很好。如下圖所示,模型預測過程中,輸入圖像首先要被送到一個空間變換網絡中做處理,矯正過的圖像然后被送入序列識別網絡中得到文本預測結果。
如下圖所示,空間變換網絡內部包含定位網絡、網格生成器、采樣器三個部件。經過訓練后,它可以根據輸入圖像的特征圖動態地產生空間變換網格,然后采樣器根據變換網格核函數從原始圖像中采樣獲得一個矩形的文本圖像。RARE中支持一種稱為TPS(thin-plate splines)的空間變換,從而能夠比較準確地識別透視變換過的文本、以及彎曲的文本.
(選自arXiv: 1603.03915,’Robust?Scene?Text?Recognition?with?Automatic?Rectification’)
端到端模型
端到端模型的目標是一站式直接從圖片中定位和識別出所有文本內容來。
FOTS Rotation-Sensitive Regression
FOTS(Fast Oriented Text Spotting)是圖像文本檢測與識別同步訓練、端到端可學習的網絡模型。檢測和識別任務共享卷積特征層,既節省了計算時間,也比兩階段訓練方式學習到更多圖像特征。引入了旋轉感興趣區域(RoIRotate), 可以從卷積特征圖中產生出定向的文本區域,從而支持傾斜文本的識別.
(選自arXiv: 1801.01671,’FOTS: Fast Oriented Text Spotting with a Unified Network’)
STN-OCR模型
(選自arXiv: 1707.08831,’STN-OCR: A single Neural Network for Text Detection and Text Recognition’)
訓練數據集
本章將列舉可用于文本檢測和識別領域模型訓練的一些大型公開數據集, 不涉及僅用于模型fine-tune任務的小型數據集。
Chinese Text in the Wild(CTW)
該數據集包含32285張圖像,1018402個中文字符(來自于騰訊街景), 包含平面文本,凸起文本,城市文本,農村文本,低亮度文本,遠處文本,部分遮擋文本。圖像大小2048*2048,數據集大小為31GB。以(8:1:1)的比例將數據集分為訓練集(25887張圖像,812872個漢字),測試集(3269張圖像,103519個漢字),驗證集(3129張圖像,103519個漢字)。
文獻鏈接:https://arxiv.org/pdf/1803.00085.pdf
數據集-:https://ctwdataset.github.io/
Reading Chinese Text in the Wild(RCTW-17)
該數據集包含12263張圖像,訓練集8034張,測試集4229張,共11.4GB。大部分圖像由手機相機拍攝,含有少量的屏幕截圖,圖像中包含中文文本與少量英文文本。圖像分辨率大小不等。
-http://mclab.eic.hust.edu.cn/icdar2017chinese/dataset.html
文獻:http://arxiv.org/pdf/1708.09585v2
ICPR MWI 2018 挑戰賽
大賽提供20000張圖像作為數據集,其中50%作為訓練集,50%作為測試集。主要由合成圖像,產品描述,網絡廣告構成。該數據集數據量充分,中英文混合,涵蓋數十種字體,字體大小不一,多種版式,***。文件大小為2GB。
-:
https://tianchi.aliyun.com/competition/information.htm?raceId=231651&_is_login_redirect=true&accounttraceid=595a06c3-7530-4b8a-ad3d-40165e22dbfe
Total-Text
該數據集共1555張圖像,11459文本行,包含水平文本,傾斜文本,彎曲文本。文件大小441MB。大部分為英文文本,少量中文文本。訓練集:1255張? 測試集:300
-:http://www.cs-chan.com/source/ICDAR2017/totaltext.zip
文獻:http:// arxiv.org/pdf/1710.10400v
Google FSNS(谷歌街景文本數據集)
該數據集是從谷歌法國街景圖片上獲得的一百多萬張街道名字標志,每一張包含同一街道標志牌的不同視角,圖像大小為600*150,訓練集1044868張,驗證集16150張,測試集20404張。
-:http://rrc.cvc.uab.es/?ch=6&com=downloads
文獻:http:// arxiv.org/pdf/1702.03970v1
COCO-TEXT
該數據集,包括63686幅圖像,173589個文本實例,包括手寫版和打印版,清晰版和非清晰版。文件大小12.58GB,訓練集:43686張,測試集:10000張,驗證集:10000張
文獻: http://arxiv.org/pdf/1601.07140v2
-:https://vision.cornell.edu/se3/coco-text-2/
Synthetic Data for Text Localisation
在復雜背景下人工合成的自然場景文本數據。包含858750張圖像,共7266866個單詞實例,28971487個字符,文件大小為41GB。該合成算法,不需要人工標注就可知道文字的label信息和位置信息,可得到大量自然場景文本標注數據。
-:http://www.robots.ox.ac.uk/~vgg/data/scenetext/
文獻:http://www.robots.ox.ac.uk/~ankush/textloc.pdf
Code: https://github.com/ankush-me/SynthText (英文版)
Code: https://github.com/wang-tf/Chinese_OCR_synthetic_data(中文版)
Synthetic Word Dataset
合成文本識別數據集,包含9百萬張圖像,涵蓋了9萬個英語單詞。文件大小為10GB
-:http://www.robots.ox.ac.uk/~vgg/data/text/
Caffe-ocr中文合成數據
數據利用中文語料庫,通過字體、大小、灰度、模糊、透視、拉伸等變化隨機生成,共360萬張圖片,圖像分辨率為280x32,涵蓋了漢字、標點、英文、數字共5990個字符。文件大小約為8.6GB
-:https://pan.baidu.com/s/1dFda6R3
參考文獻
1. “光學字符識別技術:讓電腦像人一樣閱讀”, 新浪微博, 霍強
http://tech.sina.com.cn/d/i/2015-04-03/doc-icczmvun8339303.shtml
2.“Fully Convolutional Networks for Semantic Segmentation”, arXiv:1411.4038,Jonathan Long, Evan Shelhamer, Trevor Darrell
https://arxiv.org/pdf/1411.4038
3.“Spatial Transformer Networks”,arXiv:1506.02025,Max Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu
https://arxiv.org/pdf/1506.02025
4.“Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks”,arXiv:1506.01497,Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun
https://arxiv.org/pdf/1506.01497
5.“SSD: Single Shot MultiBox Detector”,arxiv:1512.02325,Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg
https://arxiv.org/pdf/1512.02325
6.“Detecting Text in Natural Image with Connectionist Text Proposal Network”,arXiv:1609.03605,Zhi Tian, Weilin Huang, Tong He, Pan He, Yu Qiao
https://arxiv.org/pdf/1609.03605
7.“Arbitrary-Oriented Scene Text Detection via Rotation Proposals”,arXiv:1703.01086,Jianqi Ma, Weiyuan Shao, Hao Ye, Li Wang, Hong Wang, Yingbin Zheng, Xiangyang Xue
https://arxiv.org/pdf/1703.01086
8.“Fused Text Segmentation Networks for Multi-oriented Scene Text Detection”,arXiv:1709.03272,Yuchen Dai, Zheng Huang, Yuting Gao, Youxuan Xu, Kai Chen, Jie Guo, Weidong Qiu
https://arxiv.org/pdf/1709.03272
9.“Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection”,arXiv:1703.01425,Yuliang Liu, Lianwen Jin
https://arxiv.org/pdf/1703.01425
10.“EAST: An Efficient and Accurate Scene Text Detector”,arXiv:1704.03155,Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang, Shuchang Zhou, Weiran He, Jiajun Liang
https://arxiv.org/pdf/1704.03155
11.“Detecting Oriented Text in Natural Images by Linking Segments”,arXiv:1703.06520,Baoguang Shi, Xiang Bai, Serge Belongie
https://arxiv.org/pdf/1703.06520
12.“Detecting Scene Text via Instance Segmentation”,arXiv:1801.01315,Dan Deng, Haifeng Liu, Xuelong Li, Deng Cai
https://arxiv.org/pdf/1801.01315
13.“TextBoxes: A Fast Text Detector with a Single Deep Neural Network”,arXiv:1611.06779,Minghui Liao, Baoguang Shi, Xiang Bai, Xinggang Wang, Wenyu Liu
https://arxiv.org/pdf/1611.06779
14.“TextBoxes++: A Single-Shot Oriented Scene Text Detector”,arXiv:1801.02765,Minghui Liao, Baoguang Shi, Xiang Bai
https://arxiv.org/pdf/1801.02765
15.“WordSup: Exploiting Word Annotations for Character based Text Detection”,arXiv:1708.06720,Han Hu, Chengquan Zhang, Yuxuan Luo, Yuzhuo Wang, Junyu Han, Errui Ding
https://arxiv.org/pdf/1708.06720
16.“An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition”,arXiv:1507.05717,Baoguang Shi, Xiang Bai, Cong Yao
https://arxiv.org/pdf/1507.05717
17. “Robust Scene Text Recognition with Automatic Rectification”,arXiv:1603.03915,Baoguang Shi, Xinggang Wang, Pengyuan Lyu, Cong Yao, Xiang Bai
https://arxiv.org/pdf/1603.03915
18.“FOTS: Fast Oriented Text Spotting with a Unified Network”,arXiv:1801.01671,Xuebo Liu, Ding Liang, Shi Yan, Dagui Chen, Yu Qiao, Junjie Yan
https://arxiv.org/pdf/1801.01671
19.“STN-OCR: A single Neural Network for Text Detection and Text Recognition”,arXiv:1707.08831,Christian Bartz, Haojin Yang, Christoph Meinel
https://arxiv.org/pdf/1707.08831
20.“Chinese Text in the Wild”,arXiv:1803.00085,Tai-Ling Yuan, Zhe Zhu, Kun Xu, Cheng-Jun Li, Shi-Min Hu
https://arxiv.org/pdf/1803.00085.pdf
21.“ICDAR2017 Competition on Reading Chinese Text in the Wild (RCTW-17)”,arXiv:1708.09585,Baoguang Shi, Cong Yao, Minghui Liao, Mingkun Yang, Pei Xu, Linyan Cui, Serge Belongie, Shijian Lu, Xiang Bai
http://arxiv.org/pdf/1708.09585
22.“Total-Text: A Comprehensive Dataset for Scene Text Detection and Recognition”,arXiv:1710.10400,Chee Kheng Chng, Chee Seng Chan
https://arxiv.org/pdf/1710.10400
23.“End-to-End Interpretation of the French Street Name Signs Dataset”,arXiv:1702.03970,Raymond Smith, Chunhui Gu, Dar-Shyang Lee, Huiyi Hu, Ranjith Unnikrishnan, Julian Ibarz, Sacha Arnoud, Sophia Lin
https://arxiv.org/pdf/1702.03970
24.“COCO-Text: Dataset and Benchmark for Text Detection and Recognition in Natural Images”,arXiv:1601.07140,Andreas Veit, Tomas Matera, Lukas Neumann, Jiri Matas, Serge Belongie
http://arxiv.org/pdf/1601.07140
25.“Synthetic Data for Text Localisation in Natural Images”,arXiv:1604.06646, Ankush Gupta, Andrea Vedaldi, Andrew Zisserman
https://arxiv.org/pdf/1604.06646
推薦文章
[1]??機器學習-波瀾壯闊40年?SIGAI 2018.4.13.
[2]??學好機器學習需要哪些數學知識?SIGAI 2018.4.17.
[3]??人臉識別算法演化史?SIGAI 2018.4.20.
[4]??基于深度學習的目標檢測算法綜述?SIGAI 2018.4.24.
[5]??卷積神經網絡為什么能夠稱霸計算機視覺領域?? SIGAI 2018.4.26.
[6]?用一張圖理解SVM的脈絡??SIGAI 2018.4.28.
[7]?人臉檢測算法綜述??SIGAI 2018.5.3.
[8]?理解神經網絡的激活函數?SIGAI 2018.5.5.
[9]?深度卷積神經網絡演化歷史及結構改進脈絡-40頁長文全面解讀?SIGAI 2018.5.8.
[10]?理解梯度下降法?SIGAI 2018.5.11.
[11]?循環神經網絡綜述—語音識別與自然語言處理的利器?SIGAI 2018.5.15
[12]?理解凸優化??SIGAI 2018.5.18
[13]【實驗】理解SVM的核函數和參數?SIGAI 2018.5.22
[14]?【SIGAI綜述】行人檢測算法?SIGAI 2018.5.25
[15]?機器學習在自動駕駛中的應用—以百度阿波羅平臺為例(上) SIGAI 2018.5.29
[16]?理解牛頓法?SIGAI 2018.5.31
[17]【群話題精華】5月集錦—機器學習和深度學習中一些值得思考的問題?SIGAI 2018.6.1
[18]?大話Adaboost算法?SIGAI 2018.6.2
轉自:SIGAI
EI OCR 人工智能 AI
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。