久久国产亚洲精品,亚洲视频在线观看网站,亚洲AV无码一区二区二三区软件

論文解讀系列二十五：LayoutLM: 面向文檔理解的文本與版面預訓練

網友投稿 822 2025-04-02

1. 引言

文檔理解或文檔智能在當今社會有著廣泛的用途。如圖1所示的商業(yè)文檔中記錄有豐富、具體的信息，同時也呈現著復雜多變的版式結構，因此如何準確地理解這些文檔是一個極具挑戰(zhàn)性的任務。在本文之前，基于模型的文檔理解有著如下兩點不足： (1) 針對具體場景，采用人工標注數據進行端到端的有監(jiān)督訓練，沒有利用大規(guī)模的無標注數據，且模型難以泛化至其他版式或場景；（2）利用CV或NLP領域的預訓練模型進行特征提取，沒有考慮文本與版面信息的聯合訓練。

針對上述不足，微軟亞研院的研究者們提出了如圖2所示的LayoutLM模型 [1]，利用大規(guī)模無標注文檔數據集進行文本與版面的聯合預訓練，在多個下游的文檔理解任務上取得了領先的結果。具體地，LayoutLM模型很大程度上借鑒了BERT模型 [2]。在模型輸入層面，LayoutLM在BERT采用的文本與位置特征基礎上，新增了兩個特征：（1）2-D位置特征，也就是文檔版面特征；（2）文檔圖像全局特征與單詞級別特征，采用了Faster R-CNN [3] 的ROI特征。在學習目標層面，采用了掩碼視覺語言模型（Masked Visual-Language Model, MVLM）損失與多標簽文檔分類（Multi-label Document Classification，MDC）損失進行多任務學習。在訓練數據層面，LayoutLM在IIT-CDIP Test Collection 1.0 [4] 數據集的約一千一百萬張的掃描文檔圖像上進行預訓練，該數據集包含信件、備忘錄、電子郵件、表格、票據等各式各樣的文檔類型。文檔圖像的文本內容與位置信息通過開源的Tesseract [5] 引擎進行獲取。

2. LayoutLM

LayoutLM在BERT模型結構基礎上，新增了兩個輸入特征：2-D位置特征與圖像特征。

2-D位置特征：2-D位置特征的目的在于編碼文檔中的相對空間位置關系。一個文檔可視為一個坐標系統，其左上角即為坐標原點

(

)

(0,0)

(0,0)。對于一個單詞，其包圍盒能夠以坐標

(

論文解讀系列二十五：LayoutLM: 面向文檔理解的文本與版面預訓練

)

(x_0,y_0,x_1,y_1)

(x0 ,y0 ,x1 ,y1 )進行表示，其中

(

)

(x_0,y_0)

(x0 ,y0 ) 表示左上角坐標，

(

)

(x_1,y_1)

(x1 ,y1 )表示右下角坐標。

x_0

x0 與

x_1

x1 共享嵌入層參數

X，

y_0

y0 與

y_1

y1 共享嵌入層參數

Y。特別地，整個文檔圖像的包圍盒為

(

)

(0,0,W,H)

(0,0,W,H)，

W與

H分別表示文檔圖像的寬與高。

圖像特征：根據單詞的包圍盒，LayoutLM利用ROI操作從Faster R-CNN的輸出特征圖中生成圖像區(qū)域特征，與單詞一一對應。對于特殊的[CLS]標記（[CLS]標記的輸出接分類層，用于文檔分類任務，詳情可見BERT模型），則采用整圖的平均特征作為該標記的圖像特征。應該注意的是，LayoutLM在預訓練階段并沒有采用圖像特征；圖像特征僅在下游任務階段可以選擇性地加入，而生成圖像特征的Faster R-CNN模型權重來自于預訓練模型且不作調整。

預訓練任務#1：掩碼視覺語言模型MVLM。在預訓練階段，隨機掩蓋掉一些單詞的文本信息，但仍保留其位置信息，然后訓練模型根據語境去預測被掩蓋掉的單詞。通過該任務，模型能夠學會理解上下文語境并利用2-D位置信息，從而連接視覺與語言這兩個模態(tài)。

預訓練任務#2：多標簽文檔分類MDC。文檔理解的許多任務需要文檔級別的表征。由于IIT-CDIP數據中的每個文檔圖像都包含多個標簽，LayoutLM利用這些標簽進行有監(jiān)督的文檔分類任務，以令[CLS]標記輸出更為有效的文檔級別的表征。但是，對于更大規(guī)模的數據集，這些標簽并非總可獲取，因此該任務僅為可選項，并且實際上在后續(xù)的LayoutLMv2中被舍棄。

在該論文中，預訓練的LayoutLM模型在三個文檔理解任務上進行模型微調，包括表格理解、票據理解以及文檔分類，分別采用了FUNSD、SROIE以及RVL-CDIP數據集。對于表格與票據理解任務，模型為每個輸入位置進行{B, I, E, S, O}序列標記預測，從而檢測每個類別的實體。對于文檔分類任務，模型利用[CLS]標記的輸出特征進行類別預測。

3. 實驗

LayoutLM模型與BERT模型具有一致的Transformer [6] 網絡結構，因此采用BERT模型的權重進行初始化。具體地，BASE模型為12層的Transformer，每層包含768個隱含單元與12個注意力頭，共有113M參數；LARGE模型為24層的Transformer，每層包含1024個隱含單元與16個注意力頭，共有343M參數。具體的訓練細節(jié)與參數設定請參見論文。

表格理解。表格1與表格2展示了LayoutLM在表格理解數據集FUNSD上的實驗結果，包含不同模型、不同訓練數據量、不同訓練時長、不同預訓練任務等多種設定。首先，可以看到，引入了視覺信息的LayoutLM模型在精度上取得了大幅度的提升。其次，更多的訓練數據、更長的訓練時間、更大的模型能夠有效地提升模型精度。最后，MDC預訓練任務在數據量為1M與11M時具有相反效果，大數據量情況下僅用MVLM效果更優(yōu)。

票據理解。表格4展示了LayoutLM在票據理解數據集SROIE上的實驗結果?？梢钥吹?，LayoutLM LARGE模型的結果優(yōu)于當時SROIE競賽榜單第一名的結果。

文檔圖像分類。表格5展示了LayoutLM在文檔圖像分類數據集RVL-CDIP上的實驗結果。同樣地，可以看到，LayoutLM取得了領先的結果。

4. 小結

[1] Xu Y, Li M, Cui L, et al. LayoutLM: Pre-training of text and layout for document image understanding. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200.

[2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT. 2019: 4171-4186.

[3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 2015, 28: 91-99.

[4] Lewis D, Agam G, Argamon S, et al. Building a test Collection for complex document information processing. Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. 2006: 665-666.

[5] https://github.com/tesseract-ocr/tesseract

[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems. 2017: 5998-6008.

想了解更多的AI技術干貨，歡迎上華為云的AI專區(qū)，目前有AI編程Python等六大實戰(zhàn)營供大家免費學習

AI EI智能體 OCR

微吼云上線多路互動直播服務加速多場景互動直播落地

822 2025-04-02

論文解讀系列二十五：LayoutLM: 面向文檔理解的文本與版面預訓練

微吼云上線多路互動直播服務加速多場景互動直播落地

MPI簡介

Google Earth Engine ——非洲土壤表面的實際蒸發(fā)量數據集

推薦文章

企業(yè)生產管理是什么，企業(yè)生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優(yōu)點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業(yè)生產管理，制造業(yè)生產過程管理軟件

進銷存軟件和ERP有什么區(qū)別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

論文解讀系列二十五：LayoutLM: 面向文檔理解的文本與版面預訓練

推薦文章

最近發(fā)表

熱評文章

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

零代碼開發(fā)是什么？2022低代碼平臺排行榜">零代碼開發(fā)是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦