亚洲第一区精品日韩在线播放,亚洲真人日本在线,337p日本欧洲亚洲大胆裸体艺术

論文解讀系列十二：SDMG-R結構化提取—無限版式小票場景應用

網友投稿 770 2025-04-03

【摘要】在文檔圖像中提取關鍵信息在自動化辦公應用中至關重要。傳統基于模板匹配或者規則的方法，在通用性方面、未見過版式模板數據方面，效果都不好；為此，本文提出了一種端到端的空間多模態圖推理模型（SDMG-R），能有效的從未見過的模板數據中提取關鍵信息，并且通用性更好。

源碼：https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc

1?????? 背景

在文檔圖像中提取關鍵信息在辦公自動化應用中至關重要，比如常見的存檔文件、收據小票、信用表單等數據場景快速自動化歸檔、合規性檢查等等。傳統基于模板匹配或者規則的方法，主要利用的固定版式模板數據的布局、位置坐標信息、內容規則等，這些信息局限性很強，因此在通用性方面、未見過版式模板數據方面，效果都不好。為此，本文提出了一種端到端的空間多模態圖推理模型（SDMG-R），能充分利用檢測文本區域的位置布局、語義、視覺信息，相比之前獲取的信息的更充分豐富，因此能有效的從未見過的模板數據中提取關鍵信息，并且通用性更好。

2? ? ? ?創新方法及亮點

2.1?? 數據

在之前的關鍵信息抽取任務中，常用的數據集大部分是SROIE、IEHHR，但是他們訓練集、測試集有很多公共模板版式，因此不太適合去評估或驗證通用信息提取模型的通用能力；基于以上原因，本文構建一套新的關鍵信息抽取任務的數據集，并命名為WildReceipt：由25個類別組成，大概有50000個文本區域，數據量是SROIE的兩倍以上，詳細信息如下表格2-1所示：

表2-1 關鍵信息抽取任務數據集

2.2? ?創新點及貢獻

提出了一種有效的空間多模態圖推理網絡（SDMG-R），能充分利用文本區域的語義、視覺兩個維度的空間特征關系信息；

構建了一套基準數據集（WildReceipt），是SROIE數據量的兩倍，而且訓練集版式模板和測試集版式模板交叉很少，因此可以用來做些通用關鍵信息抽取任務的探索研究；

論文解讀系列十二：SDMG-R結構化提取—無限版式小票場景應用

本文利用了視覺、語義特征，如何利用好兩者數據，本文做了相關驗證：特征融合方法的有效性（CONCAT、線性求和、克羅內克積），最終結果克羅內克積比其他兩種特征融合方法高兩個點左右，如下表格2-2所示：

表2-2 特征融合方法對比結果

3? ? ? ?網絡結構

SDMG-R模型整個網絡結構如下圖3-1所示，模型輸入數據由圖片、對應文本檢測坐標區域、對應文本區域的文本內容，視覺特征通過Unet及ROI-Pooling進行提取，語義特征通過Bi-LSTM進行提取，然后多模態特征通過克羅內克積進行融合語義、視覺特征，然后再輸入到空間多模態推理模型提取最終的節點特征，最后通過分類模塊進行多分類任務；

圖3-1 SDMG-R網絡結構

3.1 視覺特征提取詳細步驟：

輸入原始圖片，resize到固定輸入尺寸（本文512x512）；

輸入到Unet，使用Unet作為視覺特征提取器，獲取得到CNN最后一層的特征圖；

將輸入尺寸的文本區域坐標（）映射到最后一層CNN特征圖，通過ROI-pooling方法進行特征提取，獲取對應文本區域圖像的視覺特征；

3.2 文本語義特征提取詳細步驟：

首先收集字符集表，本文收集了91個長度字符表，涵蓋數字（0-9）、字母（a-z，A-Z）、相關任務的特殊字符集（如“/”, “n”, “.”, “$”, “AC”, “ ”, “￥”, “:”, “-”, “*”, “#”等），不在字符表的字符統一標記成“unkown”；

其次，然后將文本字符內容映射到32維度的one-hot語義輸入的編碼形式；

然后輸入到Bi-LSTM模型中，提取256維度語義特征；

3.3 視覺+文本語義特征融合步驟：

多模態特征融合：通過克羅內克積進行特征融合，具體公式如下：

代表的是克羅內克積的操作，是一個可學習的線性轉換，代表的是融合的特征。

3.4 空間關系多模態圖推理模型：

最終的節點特征通過多模態圖推理模型完成，公式如下：

代表的是所有文本節點的特征向量（視覺+語義），是節點與節點之間邊的權重，空間關系編碼通過如下公式計算得到：

和分別是節點與節點之間的相對水平距離、相對垂直距離，是歸一化常量，是一個concatenation操作，代表的是節點i與節點j之間的相對空間位置距離的編碼形式；可視化圖推理節點的邊的權重，如下圖3-2所示

3.5? 多分類任務模塊

根據圖推理模型獲取節點的特征，最后輸入到分類模塊，通過多分類任務輸出最終的實體分類結果，損失函數使用的是交叉熵損失，公式如下：

4? ? ? ?實驗結果

在SROIE數據集的結果如下表4-1所示：

表4-1 SROIE的精度

在WildReceipt測試集的結果如下表4-2所示：

表4-2 WildReceipt的精度

EI智能體 OCR 機器學習

機器學習服務提取圖片的特征向量">使用SAP Leonardo上的機器學習服務提取圖片的特征向量

770 2025-04-03

AI創想秀，邂逅“華為云ModelArts”征文大賽——第一次收官

770 2025-04-03

如何獲取之前訓練任務的結果？

770 2025-04-03

論文解讀系列十二：SDMG-R結構化提取—無限版式小票場景應用

機器學習服務提取圖片的特征向量">使用SAP Leonardo上的機器學習服務提取圖片的特征向量

AI創想秀，邂逅“華為云ModelArts”征文大賽——第一次收官

如何獲取之前訓練任務的結果？

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

論文解讀系列十二：SDMG-R結構化提取—無限版式小票場景應用

機器學習服務提取圖片的特征向量">使用SAP Leonardo上的機器學習服務提取圖片的特征向量

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦