虛擬存儲涉及到的相關(guān)基礎(chǔ)知識總結(jié) 1
712
2025-03-31
1.引言
本文研究了文本行識別的問題。與大多數(shù)針對特定領(lǐng)域(例如場景文本或手寫文檔)的方法不同,本文針對通用架構(gòu)的一般問題進(jìn)行研究,該模型結(jié)構(gòu)不用考慮數(shù)據(jù)輸入形式,可以從任何圖像中提取文本。本文研究了兩個解碼器(CTC[1]和 Transformer[2])和三個編碼器模塊(雙向LSTM[3]、Self-Attention[4]和GRCL[5]),通過大量實驗在廣泛使用的場景和手寫文本公共數(shù)據(jù)集上比較準(zhǔn)確性和性能。本文發(fā)現(xiàn),迄今為止在文獻(xiàn)中很少受到關(guān)注的組合,即與CTC 解碼器結(jié)合Self-Attention編碼器加上語言模型的結(jié)構(gòu),在公共和內(nèi)部數(shù)據(jù)上進(jìn)行訓(xùn)練時,其準(zhǔn)確性和計算復(fù)雜度優(yōu)于其他所有組合。與更常見的基于Transformer的模型不同,這種架構(gòu)可以處理任意長度的輸入。
圖1?數(shù)據(jù)集中的文本行示例圖像,其中包含各種長度的手寫、場景文本和文檔文本圖像。
2.模型結(jié)構(gòu)
大多數(shù)最先進(jìn)的文本行識別算法由三個主要組件組成:用于提取視覺特征的卷積主干;用于聚合部分或整個序列的特征的順序編碼器;最后是一個解碼器,根據(jù)編碼器輸出產(chǎn)生最終轉(zhuǎn)錄。在本工作中研究了具有固定主干的編碼器和解碼器的不同組合,并提出了一種最優(yōu)的模型體系結(jié)構(gòu),模型結(jié)構(gòu)見圖2。
圖2 模型結(jié)構(gòu)。輸入圖像在饋送到主干之前被分割成帶有雙向填充的重疊塊。生成的序列特征的有效部分在饋送到解碼器之前被級聯(lián)。
2.1 主干網(wǎng)絡(luò)
本文的主干是一個等距架構(gòu)[6],使用融合反轉(zhuǎn)瓶頸層作為構(gòu)建塊,這是反轉(zhuǎn)瓶頸層[7]的變體,它用全卷積取代可分離的結(jié)構(gòu),以提高模型推理效率。等距架構(gòu)在所有層中保持恒定的內(nèi)部分辨率,允許低激活內(nèi)存占用空間,并使模型更容易自定義到專用硬件,并實現(xiàn)最高利用率。圖3詳細(xì)說明了網(wǎng)絡(luò)。它由一個塊大小為4的space-to-depth層組成,然后是11個融合反轉(zhuǎn)瓶頸層,具有3×3內(nèi)核和8×擴展速率,具有64個輸出通道。應(yīng)用最終的完全卷積殘差塊將張量高度降低到1,作為輸入送到編碼器網(wǎng)絡(luò)。
圖3 實驗中使用的主干。首先通過空間到深度操作將輸入灰度圖像的分辨率降低4倍,然后應(yīng)用11個融合反轉(zhuǎn)瓶頸層,擴展速率為8和64個輸出通道,并使用殘差卷積塊將輸出投影到高度為1的張量中。
2.2 編碼器
Self-Attention編碼器已被廣泛用于許多NLP和視覺任務(wù)。作為圖像到序列的任務(wù),文本行識別也不例外。自我注意編碼器可以有效地輸出總結(jié)整個序列的特征,而不使用重復(fù)連接。主干網(wǎng)絡(luò)的輸出被饋送到編碼器。編碼特征Y計算為:
其中Q、K和V的三個參數(shù)W是大小為d×d的學(xué)習(xí)參數(shù),它們分別將輸入序列X投影到queries、keys和values中。編碼特征Y是計算值V的凸組合,相似性矩陣由queries和keys的點積計算。
本文使用4個獨立的頭,每個頭都使用多頭注意力機制。隱藏層大小設(shè)置為256。為了防止過擬合,在每個子層之后應(yīng)用dropout,設(shè)置為0.1。增加正弦相對位置編碼,使編碼器位置感知。在本文的實驗中,我們通過將k個編碼器層與以{4、8、12、16、20}數(shù)量堆疊,比較了不同模型變化的精度和復(fù)雜性。
2.3 解碼器
在CTC解碼器之后加入語言模型,采用基于字符的N-gram語言模型使用最小錯誤率來訓(xùn)練優(yōu)化特征函數(shù)的權(quán)重。
2.4 圖片分塊
由于自注意力層中的點積注意力影響,編碼器的模型復(fù)雜性和內(nèi)存占用率與圖像寬度的函數(shù)比例呈二次增長。這會導(dǎo)致圖片太長使得輸入出現(xiàn)問題。縮小長圖像可以避免這些問題,但它不可避免地會影響識別精度,特別是對于狹窄或緊密間隔的字符。
本文提出了一個簡單而有效的分塊策略,以確保模型在任意寬的輸入圖像上工作良好,而不會收縮(見圖2)。本文將輸入圖像的大小調(diào)整為40像素高度,保留寬高比。然后,文本行被拆分為重疊的塊,帶有雙向填充,以減少可能的邊界效果(請注意,最后一個塊有額外的填充,以確保用于批處理目的的統(tǒng)一形狀)。本文將重疊的塊饋送到主干和自注意力編碼器中,以生成每個塊的序列特征。最后將有效區(qū)域合并回一個完整的序列,刪除填充區(qū)域。
這種方法將長序列拆分為k個較短的塊,有效地將模型復(fù)雜性和自注意力層的內(nèi)存使用量降低了k倍。此策略在訓(xùn)練和推理時都使用,以保持行為一致。
3.實驗結(jié)果
圖4為實驗結(jié)果,結(jié)果顯示CTC 解碼器結(jié)合Self-Attention編碼器加上語言模型的結(jié)構(gòu),在公共和內(nèi)部數(shù)據(jù)上進(jìn)行訓(xùn)練時,其準(zhǔn)確性和計算復(fù)雜度優(yōu)于其他所有組合
圖4 對選擇模型結(jié)構(gòu)在手寫數(shù)據(jù)集和場景文本數(shù)據(jù)集上的評估結(jié)果。“Rect.”列指示模型是否包括矯正模塊。“S-Attn”、“Attn”和“Tfmr Dec.”分別代表自我注意力機制、注意力機制和Transformer解碼器。“MJ”,“ST”和“SA”分別代表MJSynth、SynthText 和SynthAdd數(shù)據(jù)集。
4.結(jié)論
在文本工作中,研究了具有代表性的編碼器/解碼器體系結(jié)構(gòu)作為通用文本行識別器的性能。在解碼器比較中,發(fā)現(xiàn)CTC與語言模型結(jié)合產(chǎn)生了整體優(yōu)越的性能。在沒有LM的情況下,CTC和Transformer具有競爭力,CTC在某些情況下占主導(dǎo)地位(GRCL),Transformer在其他情況下占主導(dǎo)地位(BiLSTM)。另一方面,在編碼器比較中,SelfAttention總是表現(xiàn)更好,在沒有LM的情況下,兩個解碼器都同樣好用。有趣的是,未經(jīng)研究的SelfAttention/CTC+LM模型效果最好。本文同樣表明,基于注意力的解碼器仍然可以從外部語言模型中受益。研究具有變壓器解碼器的外部語言模型的有效性將是未來的工作。
本文還考慮了在樣本分布中存在長圖像所產(chǎn)生的問題。至少有兩個新的方面需要考慮,效率和性能。由于圖像長度的二次縮放,長圖像會影響使用自注意力編碼器的模型效率。本文證明,通過對圖像進(jìn)行分塊,CTC模型可以解決這個問題,而不會造成性能損失。對固定最大寬度圖像的訓(xùn)練會影響使用變壓器解碼器的模型對較長圖像識別的性能。通過將圖像大小調(diào)整到訓(xùn)練的寬度,雖然不能完全消除,但可以緩解此問題。
參考文獻(xiàn)
[1] Graves A, Fernández S, Gomez F, et al. Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd international conference on Machine learning. 2006: 369-376.
[2] Bleeker M, de Rijke M. Bidirectional scene text recognition with a single decoder. arXiv preprint arXiv:1912.03656, 2019.
[3] Hochreiter S, Schmidhuber J. Long short-term memory. Neural computation, 1997, 9(8): 1735-1780.
[4] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems. 2017: 5998-6008.
[5] Wang J, Hu X. Gated recurrent convolution neural network for ocr. Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 334-343.
[6] Sandler M, Baccash J, Zhmoginov A, et al. Non-discriminative data or weak model? on the relative importance of data and model resolution. Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops. 2019: 0-0.
[7] Sandler M, Howard A, Zhu M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks. Proceedings of the IEEE conference on Computer Vision and pattern recognition. 2018: 4510-4520.
EI企業(yè)智能 EI智能體 Image OCR
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。