論文解讀系列十二:SDMG-R結構化提取—無限版式小票場景應用

      網友投稿 770 2025-04-03

      【摘要】在文檔圖像中提取關鍵信息在自動化辦公應用中至關重要。傳統基于模板匹配或者規則的方法,在通用性方面、未見過版式模板數據方面,效果都不好;為此,本文提出了一種端到端的空間多模態圖推理模型(SDMG-R),能有效的從未見過的模板數據中提取關鍵信息,并且通用性更好。


      源碼:https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc

      1?????? 背景

      在文檔圖像中提取關鍵信息在辦公自動化應用中至關重要,比如常見的存檔文件、收據小票、信用表單等數據場景快速自動化歸檔、合規性檢查等等。傳統基于模板匹配或者規則的方法,主要利用的固定版式模板數據的布局、位置坐標信息、內容規則等,這些信息局限性很強,因此在通用性方面、未見過版式模板數據方面,效果都不好。為此,本文提出了一種端到端的空間多模態圖推理模型(SDMG-R),能充分利用檢測文本區域的位置布局、語義、視覺信息,相比之前獲取的信息的更充分豐富,因此能有效的從未見過的模板數據中提取關鍵信息,并且通用性更好。

      2? ? ? ?創新方法及亮點

      2.1?? 數據

      在之前的關鍵信息抽取任務中,常用的數據集大部分是SROIE、IEHHR,但是他們訓練集、測試集有很多公共模板版式,因此不太適合去評估或驗證通用信息提取模型的通用能力;基于以上原因,本文構建一套新的關鍵信息抽取任務的數據集,并命名為WildReceipt:由25個類別組成,大概有50000個文本區域,數據量是SROIE的兩倍以上,詳細信息如下表格2-1所示:

      表2-1 關鍵信息抽取任務數據集

      2.2? ?創新點及貢獻

      提出了一種有效的空間多模態圖推理網絡(SDMG-R),能充分利用文本區域的語義、視覺兩個維度的空間特征關系信息;

      構建了一套基準數據集(WildReceipt),是SROIE數據量的兩倍,而且訓練集版式模板和測試集版式模板交叉很少,因此可以用來做些通用關鍵信息抽取任務的探索研究;

      論文解讀系列十二:SDMG-R結構化提取—無限版式小票場景應用

      本文利用了視覺、語義特征,如何利用好兩者數據,本文做了相關驗證:特征融合方法的有效性(CONCAT、線性求和、克羅內克積),最終結果克羅內克積比其他兩種特征融合方法高兩個點左右,如下表格2-2所示:

      表2-2 特征融合方法對比結果

      3? ? ? ?網絡結構

      SDMG-R模型整個網絡結構如下圖3-1所示,模型輸入數據由圖片、對應文本檢測坐標區域、對應文本區域的文本內容,視覺特征通過Unet及ROI-Pooling進行提取,語義特征通過Bi-LSTM進行提取,然后多模態特征通過克羅內克積進行融合語義、視覺特征,然后再輸入到空間多模態推理模型提取最終的節點特征,最后通過分類模塊進行多分類任務;

      圖3-1 SDMG-R網絡結構

      3.1 視覺特征提取詳細步驟:

      輸入原始圖片,resize到固定輸入尺寸(本文512x512);

      輸入到Unet,使用Unet作為視覺特征提取器,獲取得到CNN最后一層的特征圖;

      將輸入尺寸的文本區域坐標()映射到最后一層CNN特征圖,通過ROI-pooling方法進行特征提取,獲取對應文本區域圖像的視覺特征;

      3.2 文本語義特征提取詳細步驟:

      首先收集字符集表,本文收集了91個長度字符表,涵蓋數字(0-9)、字母(a-z,A-Z)、相關任務的特殊字符集(如“/”, “n”, “.”, “$”, “AC”, “ ”, “¥”, “:”, “-”, “*”, “#”等),不在字符表的字符統一標記成“unkown”;

      其次,然后將文本字符內容映射到32維度的one-hot語義輸入的編碼形式;

      然后輸入到Bi-LSTM模型中,提取256維度語義特征;

      3.3 視覺+文本語義特征融合步驟:

      多模態特征融合:通過克羅內克積進行特征融合,具體公式如下:

      代表的是克羅內克積的操作,是一個可學習的線性轉換,代表的是融合的特征。

      3.4 空間關系多模態圖推理模型:

      最終的節點特征通過多模態圖推理模型完成,公式如下:

      代表的是所有文本節點的特征向量(視覺+語義),是節點與節點之間邊的權重,空間關系編碼通過如下公式計算得到:

      和分別是節點與節點之間的相對水平距離、相對垂直距離,是歸一化常量,是一個concatenation操作,代表的是節點i與節點j之間的相對空間位置距離的編碼形式;可視化圖推理節點的邊的權重,如下圖3-2所示

      3.5? 多分類任務模塊

      根據圖推理模型獲取節點的特征,最后輸入到分類模塊,通過多分類任務輸出最終的實體分類結果,損失函數使用的是交叉熵損失,公式如下:

      4? ? ? ?實驗結果

      在SROIE數據集的結果如下表4-1所示:

      表4-1 SROIE的精度

      在WildReceipt測試集的結果如下表4-2所示:

      表4-2 WildReceipt的精度

      EI智能體 OCR 機器學習

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:電子表格排名(電子表格排名用什么函數)
      下一篇:ppt只能用wps打開怎么辦(ppt文件只能用WPS打開)
      相關文章
      亚洲国产高清美女在线观看| 久久青草亚洲AV无码麻豆| 蜜芽亚洲av无码精品色午夜| 国产精品亚洲w码日韩中文| 青青青亚洲精品国产| 亚洲精品中文字幕| 亚洲精品天堂无码中文字幕| 亚洲日韩AV无码一区二区三区人| 亚洲成人免费网站| 亚洲国产精品无码久久久| 亚洲福利一区二区精品秒拍| 亚洲蜜芽在线精品一区| 亚洲成a人片77777群色| 亚洲国产成人91精品| 亚洲av无码专区在线| 亚洲综合小说另类图片动图 | 亚洲最大激情中文字幕| 久久久久亚洲AV成人网人人网站| 国产中文在线亚洲精品官网| 亚洲综合无码AV一区二区| 国产亚洲精品a在线无码| 久久香蕉国产线看观看亚洲片| 亚洲性天天干天天摸| 亚洲欧洲综合在线| 国产成人精品日本亚洲专区6| 亚洲伊人久久大香线蕉AV| 亚洲熟妇久久精品| 国产成人高清亚洲一区91| 久久精品国产亚洲Aⅴ香蕉| 亚洲精品制服丝袜四区| 亚洲va在线va天堂va不卡下载 | 性色av极品无码专区亚洲| 亚洲av日韩av永久在线观看| 亚洲国产精品人人做人人爱| 久久久久亚洲精品男人的天堂| 亚洲国产成人一区二区精品区| 久久亚洲私人国产精品vA | 亚洲热妇无码AV在线播放| 亚洲AV人人澡人人爽人人夜夜| 精品日韩亚洲AV无码一区二区三区 | 男人的天堂亚洲一区二区三区 |