論文解讀系列十二:SDMG-R結構化提取—無限版式小票場景應用
【摘要】在文檔圖像中提取關鍵信息在自動化辦公應用中至關重要。傳統基于模板匹配或者規則的方法,在通用性方面、未見過版式模板數據方面,效果都不好;為此,本文提出了一種端到端的空間多模態圖推理模型(SDMG-R),能有效的從未見過的模板數據中提取關鍵信息,并且通用性更好。

源碼:https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc
1?????? 背景
在文檔圖像中提取關鍵信息在辦公自動化應用中至關重要,比如常見的存檔文件、收據小票、信用表單等數據場景快速自動化歸檔、合規性檢查等等。傳統基于模板匹配或者規則的方法,主要利用的固定版式模板數據的布局、位置坐標信息、內容規則等,這些信息局限性很強,因此在通用性方面、未見過版式模板數據方面,效果都不好。為此,本文提出了一種端到端的空間多模態圖推理模型(SDMG-R),能充分利用檢測文本區域的位置布局、語義、視覺信息,相比之前獲取的信息的更充分豐富,因此能有效的從未見過的模板數據中提取關鍵信息,并且通用性更好。
2? ? ? ?創新方法及亮點
2.1?? 數據
在之前的關鍵信息抽取任務中,常用的數據集大部分是SROIE、IEHHR,但是他們訓練集、測試集有很多公共模板版式,因此不太適合去評估或驗證通用信息提取模型的通用能力;基于以上原因,本文構建一套新的關鍵信息抽取任務的數據集,并命名為WildReceipt:由25個類別組成,大概有50000個文本區域,數據量是SROIE的兩倍以上,詳細信息如下表格2-1所示:
表2-1 關鍵信息抽取任務數據集
2.2? ?創新點及貢獻
提出了一種有效的空間多模態圖推理網絡(SDMG-R),能充分利用文本區域的語義、視覺兩個維度的空間特征關系信息;
構建了一套基準數據集(WildReceipt),是SROIE數據量的兩倍,而且訓練集版式模板和測試集版式模板交叉很少,因此可以用來做些通用關鍵信息抽取任務的探索研究;
本文利用了視覺、語義特征,如何利用好兩者數據,本文做了相關驗證:特征融合方法的有效性(CONCAT、線性求和、克羅內克積),最終結果克羅內克積比其他兩種特征融合方法高兩個點左右,如下表格2-2所示:
表2-2 特征融合方法對比結果
3? ? ? ?網絡結構
SDMG-R模型整個網絡結構如下圖3-1所示,模型輸入數據由圖片、對應文本檢測坐標區域、對應文本區域的文本內容,視覺特征通過Unet及ROI-Pooling進行提取,語義特征通過Bi-LSTM進行提取,然后多模態特征通過克羅內克積進行融合語義、視覺特征,然后再輸入到空間多模態推理模型提取最終的節點特征,最后通過分類模塊進行多分類任務;
圖3-1 SDMG-R網絡結構
3.1 視覺特征提取詳細步驟:
輸入原始圖片,resize到固定輸入尺寸(本文512x512);
輸入到Unet,使用Unet作為視覺特征提取器,獲取得到CNN最后一層的特征圖;
將輸入尺寸的文本區域坐標()映射到最后一層CNN特征圖,通過ROI-pooling方法進行特征提取,獲取對應文本區域圖像的視覺特征;
3.2 文本語義特征提取詳細步驟:
首先收集字符集表,本文收集了91個長度字符表,涵蓋數字(0-9)、字母(a-z,A-Z)、相關任務的特殊字符集(如“/”, “n”, “.”, “$”, “AC”, “ ”, “¥”, “:”, “-”, “*”, “#”等),不在字符表的字符統一標記成“unkown”;
其次,然后將文本字符內容映射到32維度的one-hot語義輸入的編碼形式;
然后輸入到Bi-LSTM模型中,提取256維度語義特征;
3.3 視覺+文本語義特征融合步驟:
多模態特征融合:通過克羅內克積進行特征融合,具體公式如下:
代表的是克羅內克積的操作,是一個可學習的線性轉換,代表的是融合的特征。
3.4 空間關系多模態圖推理模型:
最終的節點特征通過多模態圖推理模型完成,公式如下:
代表的是所有文本節點的特征向量(視覺+語義),是節點與節點之間邊的權重,空間關系編碼通過如下公式計算得到:
和分別是節點與節點之間的相對水平距離、相對垂直距離,是歸一化常量,是一個concatenation操作,代表的是節點i與節點j之間的相對空間位置距離的編碼形式;可視化圖推理節點的邊的權重,如下圖3-2所示
3.5? 多分類任務模塊
根據圖推理模型獲取節點的特征,最后輸入到分類模塊,通過多分類任務輸出最終的實體分類結果,損失函數使用的是交叉熵損失,公式如下:
4? ? ? ?實驗結果
在SROIE數據集的結果如下表4-1所示:
表4-1 SROIE的精度
在WildReceipt測試集的結果如下表4-2所示:
表4-2 WildReceipt的精度
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。