微吼云上線多路互動直播服務 加速多場景互動直播落地
822
2025-04-02
1. 引言
文檔理解或文檔智能在當今社會有著廣泛的用途。如圖1所示的商業(yè)文檔中記錄有豐富、具體的信息,同時也呈現著復雜多變的版式結構,因此如何準確地理解這些文檔是一個極具挑戰(zhàn)性的任務。在本文之前,基于模型的文檔理解有著如下兩點不足: (1) 針對具體場景,采用人工標注數據進行端到端的有監(jiān)督訓練,沒有利用大規(guī)模的無標注數據,且模型難以泛化至其他版式或場景;(2)利用CV或NLP領域的預訓練模型進行特征提取,沒有考慮文本與版面信息的聯合訓練。
針對上述不足,微軟亞研院的研究者們提出了如圖2所示的LayoutLM模型 [1],利用大規(guī)模無標注文檔數據集進行文本與版面的聯合預訓練,在多個下游的文檔理解任務上取得了領先的結果。具體地,LayoutLM模型很大程度上借鑒了BERT模型 [2]。在模型輸入層面,LayoutLM在BERT采用的文本與位置特征基礎上,新增了兩個特征:(1)2-D位置特征,也就是文檔版面特征;(2)文檔圖像全局特征與單詞級別特征,采用了Faster R-CNN [3] 的ROI特征。在學習目標層面,采用了掩碼視覺語言模型(Masked Visual-Language Model, MVLM)損失與多標簽文檔分類(Multi-label Document Classification,MDC)損失進行多任務學習。在訓練數據層面,LayoutLM在IIT-CDIP Test Collection 1.0 [4] 數據集的約一千一百萬張的掃描文檔圖像上進行預訓練,該數據集包含信件、備忘錄、電子郵件、表格、票據等各式各樣的文檔類型。文檔圖像的文本內容與位置信息通過開源的Tesseract [5] 引擎進行獲取。
2. LayoutLM
LayoutLM在BERT模型結構基礎上,新增了兩個輸入特征:2-D位置特征與圖像特征。
2-D位置特征:2-D位置特征的目的在于編碼文檔中的相對空間位置關系。一個文檔可視為一個坐標系統,其左上角即為坐標原點
(
0
,
0
)
(0,0)
(0,0)。對于一個單詞,其包圍盒能夠以坐標
(
x
0
,
y
0
,
x
1
,
y
1
)
(x_0,y_0,x_1,y_1)
(x0 ,y0 ,x1 ,y1 )進行表示,其中
(
x
0
,
y
0
)
(x_0,y_0)
(x0 ,y0 ) 表示左上角坐標,
(
x
1
,
y
1
)
(x_1,y_1)
(x1 ,y1 )表示右下角坐標。
x
0
x_0
x0 與
x
1
x_1
x1 共享嵌入層參數
X
X
X,
y
0
y_0
y0 與
y
1
y_1
y1 共享嵌入層參數
Y
Y
Y。特別地,整個文檔圖像的包圍盒為
(
0
,
0
,
W
,
H
)
(0,0,W,H)
(0,0,W,H),
W
W
W與
H
H
H分別表示文檔圖像的寬與高。
圖像特征:根據單詞的包圍盒,LayoutLM利用ROI操作從Faster R-CNN的輸出特征圖中生成圖像區(qū)域特征,與單詞一一對應。對于特殊的[CLS]標記([CLS]標記的輸出接分類層,用于文檔分類任務,詳情可見BERT模型),則采用整圖的平均特征作為該標記的圖像特征。應該注意的是,LayoutLM在預訓練階段并沒有采用圖像特征;圖像特征僅在下游任務階段可以選擇性地加入,而生成圖像特征的Faster R-CNN模型權重來自于預訓練模型且不作調整。
預訓練任務#1:掩碼視覺語言模型MVLM。在預訓練階段,隨機掩蓋掉一些單詞的文本信息,但仍保留其位置信息,然后訓練模型根據語境去預測被掩蓋掉的單詞。通過該任務,模型能夠學會理解上下文語境并利用2-D位置信息,從而連接視覺與語言這兩個模態(tài)。
預訓練任務#2:多標簽文檔分類MDC。文檔理解的許多任務需要文檔級別的表征。由于IIT-CDIP數據中的每個文檔圖像都包含多個標簽,LayoutLM利用這些標簽進行有監(jiān)督的文檔分類任務,以令[CLS]標記輸出更為有效的文檔級別的表征。但是,對于更大規(guī)模的數據集,這些標簽并非總可獲取,因此該任務僅為可選項,并且實際上在后續(xù)的LayoutLMv2中被舍棄。
在該論文中,預訓練的LayoutLM模型在三個文檔理解任務上進行模型微調,包括表格理解、票據理解以及文檔分類,分別采用了FUNSD、SROIE以及RVL-CDIP數據集。對于表格與票據理解任務,模型為每個輸入位置進行{B, I, E, S, O}序列標記預測,從而檢測每個類別的實體。對于文檔分類任務,模型利用[CLS]標記的輸出特征進行類別預測。
3. 實驗
LayoutLM模型與BERT模型具有一致的Transformer [6] 網絡結構,因此采用BERT模型的權重進行初始化。具體地,BASE模型為12層的Transformer,每層包含768個隱含單元與12個注意力頭,共有113M參數;LARGE模型為24層的Transformer,每層包含1024個隱含單元與16個注意力頭,共有343M參數。具體的訓練細節(jié)與參數設定請參見論文。
表格理解。表格1與表格2展示了LayoutLM在表格理解數據集FUNSD上的實驗結果,包含不同模型、不同訓練數據量、不同訓練時長、不同預訓練任務等多種設定。首先,可以看到,引入了視覺信息的LayoutLM模型在精度上取得了大幅度的提升。其次,更多的訓練數據、更長的訓練時間、更大的模型能夠有效地提升模型精度。最后,MDC預訓練任務在數據量為1M與11M時具有相反效果,大數據量情況下僅用MVLM效果更優(yōu)。
票據理解。表格4展示了LayoutLM在票據理解數據集SROIE上的實驗結果??梢钥吹?,LayoutLM LARGE模型的結果優(yōu)于當時SROIE競賽榜單第一名的結果。
文檔圖像分類。表格5展示了LayoutLM在文檔圖像分類數據集RVL-CDIP上的實驗結果。同樣地,可以看到,LayoutLM取得了領先的結果。
4. 小結
[1] Xu Y, Li M, Cui L, et al. LayoutLM: Pre-training of text and layout for document image understanding. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200.
[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT. 2019: 4171-4186.
[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 2015, 28: 91-99.
[4] Lewis D, Agam G, Argamon S, et al. Building a test Collection for complex document information processing. Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. 2006: 665-666.
[5] https://github.com/tesseract-ocr/tesseract
[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems. 2017: 5998-6008.
想了解更多的AI技術干貨,歡迎上華為云的AI專區(qū),目前有AI編程Python等六大實戰(zhàn)營供大家免費學習
AI EI智能體 OCR
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。