論文解讀系列二十五:LayoutLM: 面向文檔理解的文本與版面預訓練

      網友投稿 822 2025-04-02

      1. 引言


      文檔理解或文檔智能在當今社會有著廣泛的用途。如圖1所示的商業(yè)文檔中記錄有豐富、具體的信息,同時也呈現著復雜多變的版式結構,因此如何準確地理解這些文檔是一個極具挑戰(zhàn)性的任務。在本文之前,基于模型的文檔理解有著如下兩點不足: (1) 針對具體場景,采用人工標注數據進行端到端的有監(jiān)督訓練,沒有利用大規(guī)模的無標注數據,且模型難以泛化至其他版式或場景;(2)利用CV或NLP領域的預訓練模型進行特征提取,沒有考慮文本與版面信息的聯合訓練。

      針對上述不足,微軟亞研院的研究者們提出了如圖2所示的LayoutLM模型 [1],利用大規(guī)模無標注文檔數據集進行文本與版面的聯合預訓練,在多個下游的文檔理解任務上取得了領先的結果。具體地,LayoutLM模型很大程度上借鑒了BERT模型 [2]。在模型輸入層面,LayoutLM在BERT采用的文本與位置特征基礎上,新增了兩個特征:(1)2-D位置特征,也就是文檔版面特征;(2)文檔圖像全局特征與單詞級別特征,采用了Faster R-CNN [3] 的ROI特征。在學習目標層面,采用了掩碼視覺語言模型(Masked Visual-Language Model, MVLM)損失與多標簽文檔分類(Multi-label Document Classification,MDC)損失進行多任務學習。在訓練數據層面,LayoutLM在IIT-CDIP Test Collection 1.0 [4] 數據集的約一千一百萬張的掃描文檔圖像上進行預訓練,該數據集包含信件、備忘錄、電子郵件、表格、票據等各式各樣的文檔類型。文檔圖像的文本內容與位置信息通過開源的Tesseract [5] 引擎進行獲取。

      2. LayoutLM

      LayoutLM在BERT模型結構基礎上,新增了兩個輸入特征:2-D位置特征與圖像特征。

      2-D位置特征:2-D位置特征的目的在于編碼文檔中的相對空間位置關系。一個文檔可視為一個坐標系統,其左上角即為坐標原點

      (

      0

      ,

      0

      )

      (0,0)

      (0,0)。對于一個單詞,其包圍盒能夠以坐標

      (

      x

      0

      論文解讀系列二十五:LayoutLM: 面向文檔理解的文本與版面預訓練

      ,

      y

      0

      ,

      x

      1

      ,

      y

      1

      )

      (x_0,y_0,x_1,y_1)

      (x0 ,y0 ,x1 ,y1 )進行表示,其中

      (

      x

      0

      ,

      y

      0

      )

      (x_0,y_0)

      (x0 ,y0 ) 表示左上角坐標,

      (

      x

      1

      ,

      y

      1

      )

      (x_1,y_1)

      (x1 ,y1 )表示右下角坐標。

      x

      0

      x_0

      x0 與

      x

      1

      x_1

      x1 共享嵌入層參數

      X

      X

      X,

      y

      0

      y_0

      y0 與

      y

      1

      y_1

      y1 共享嵌入層參數

      Y

      Y

      Y。特別地,整個文檔圖像的包圍盒為

      (

      0

      ,

      0

      ,

      W

      ,

      H

      )

      (0,0,W,H)

      (0,0,W,H),

      W

      W

      W與

      H

      H

      H分別表示文檔圖像的寬與高。

      圖像特征:根據單詞的包圍盒,LayoutLM利用ROI操作從Faster R-CNN的輸出特征圖中生成圖像區(qū)域特征,與單詞一一對應。對于特殊的[CLS]標記([CLS]標記的輸出接分類層,用于文檔分類任務,詳情可見BERT模型),則采用整圖的平均特征作為該標記的圖像特征。應該注意的是,LayoutLM在預訓練階段并沒有采用圖像特征;圖像特征僅在下游任務階段可以選擇性地加入,而生成圖像特征的Faster R-CNN模型權重來自于預訓練模型且不作調整。

      預訓練任務#1:掩碼視覺語言模型MVLM。在預訓練階段,隨機掩蓋掉一些單詞的文本信息,但仍保留其位置信息,然后訓練模型根據語境去預測被掩蓋掉的單詞。通過該任務,模型能夠學會理解上下文語境并利用2-D位置信息,從而連接視覺與語言這兩個模態(tài)。

      預訓練任務#2:多標簽文檔分類MDC。文檔理解的許多任務需要文檔級別的表征。由于IIT-CDIP數據中的每個文檔圖像都包含多個標簽,LayoutLM利用這些標簽進行有監(jiān)督的文檔分類任務,以令[CLS]標記輸出更為有效的文檔級別的表征。但是,對于更大規(guī)模的數據集,這些標簽并非總可獲取,因此該任務僅為可選項,并且實際上在后續(xù)的LayoutLMv2中被舍棄。

      在該論文中,預訓練的LayoutLM模型在三個文檔理解任務上進行模型微調,包括表格理解、票據理解以及文檔分類,分別采用了FUNSD、SROIE以及RVL-CDIP數據集。對于表格與票據理解任務,模型為每個輸入位置進行{B, I, E, S, O}序列標記預測,從而檢測每個類別的實體。對于文檔分類任務,模型利用[CLS]標記的輸出特征進行類別預測。

      3. 實驗

      LayoutLM模型與BERT模型具有一致的Transformer [6] 網絡結構,因此采用BERT模型的權重進行初始化。具體地,BASE模型為12層的Transformer,每層包含768個隱含單元與12個注意力頭,共有113M參數;LARGE模型為24層的Transformer,每層包含1024個隱含單元與16個注意力頭,共有343M參數。具體的訓練細節(jié)與參數設定請參見論文。

      表格理解。表格1與表格2展示了LayoutLM在表格理解數據集FUNSD上的實驗結果,包含不同模型、不同訓練數據量、不同訓練時長、不同預訓練任務等多種設定。首先,可以看到,引入了視覺信息的LayoutLM模型在精度上取得了大幅度的提升。其次,更多的訓練數據、更長的訓練時間、更大的模型能夠有效地提升模型精度。最后,MDC預訓練任務在數據量為1M與11M時具有相反效果,大數據量情況下僅用MVLM效果更優(yōu)。

      票據理解。表格4展示了LayoutLM在票據理解數據集SROIE上的實驗結果??梢钥吹?,LayoutLM LARGE模型的結果優(yōu)于當時SROIE競賽榜單第一名的結果。

      文檔圖像分類。表格5展示了LayoutLM在文檔圖像分類數據集RVL-CDIP上的實驗結果。同樣地,可以看到,LayoutLM取得了領先的結果。

      4. 小結

      [1] Xu Y, Li M, Cui L, et al. LayoutLM: Pre-training of text and layout for document image understanding. Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1192-1200.

      [2] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL-HLT. 2019: 4171-4186.

      [3] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 2015, 28: 91-99.

      [4] Lewis D, Agam G, Argamon S, et al. Building a test Collection for complex document information processing. Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. 2006: 665-666.

      [5] https://github.com/tesseract-ocr/tesseract

      [6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. Advances in neural information processing systems. 2017: 5998-6008.

      想了解更多的AI技術干貨,歡迎上華為云的AI專區(qū),目前有AI編程Python等六大實戰(zhàn)營供大家免費學習

      AI EI智能體 OCR

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:探尋專業(yè)協作配套項目的豐富多樣性
      下一篇:wps表格if函數的使用教程詳解(wps if函數的使用方法及實例)
      相關文章
      亚洲乱码国产乱码精华| 亚洲国产精品综合久久网各 | 亚洲国产精品综合久久久| 亚洲视频精品在线| 亚洲精品国产精品乱码不99| 亚洲综合日韩久久成人AV| 国产gv天堂亚洲国产gv刚刚碰| 亚洲精品和日本精品| 久久久久亚洲AV成人网人人网站| 亚洲日本va午夜中文字幕久久| 亚洲日韩中文字幕日韩在线| 精品国产人成亚洲区| 国产亚洲精品久久久久秋霞| 亚洲日韩精品一区二区三区 | 久久久久无码专区亚洲av| 亚洲综合色自拍一区| 国产亚洲福利精品一区| 国产亚洲精品久久久久秋霞| 亚洲熟女一区二区三区| 亚洲乱码日产精品a级毛片久久| 亚洲国产一成久久精品国产成人综合| 久久亚洲免费视频| 亚洲AV无码久久寂寞少妇| 337p日本欧洲亚洲大胆艺术| 亚洲精品又粗又大又爽A片| 久久精品国产亚洲AV高清热| 亚洲熟妇无码乱子AV电影| 亚洲国产美女精品久久久久| 亚洲经典千人经典日产| 色欲aⅴ亚洲情无码AV蜜桃| 亚洲av中文无码乱人伦在线观看 | 91亚洲精品自在在线观看| 久久久久亚洲AV成人网人人软件| 亚洲欧洲精品无码AV| 亚洲a无码综合a国产av中文| 亚洲第一精品在线视频| 亚洲国产成人片在线观看| 久久夜色精品国产亚洲| 久久精品国产亚洲av成人| 亚洲美女视频网站| 亚洲国产精品无码一线岛国|