論文 解讀 系列 十五：文檔結構分析

網友投稿 694 2022-05-29

1?文章摘要

提出一個端到端的文檔結構分析方案（DocParser），對文檔（掃描版、圖片版等）進行結構提取，包括實體識別（這里實體指所有需要檢測的元素，包括文本、行、列、單元格等）和關系分類。基于TEX和synctex，通過反向生成TEX代碼生成弱監督標簽。

論文解讀系列十五：文檔結構分析

2?解決方案

給定文檔集D，目標是生成層級結構T，其中T包括實體及實體間的關系Relations。對于實體，E指文檔中的各種元素，如數字、表、行、單元格等，每個實體包括3個特性，1. 語義類別, 2. 檢測框（bouding box）的坐標，3. 置信度(confidence score)。對于Relations，R由三元組(Esubj,Eobj,Ψ) 給定，關系類別Ψ ∈ {parent of ,followed by,null}，null表示其它無關的實體，例如頁眉頁腳。

實體E及其關系R的組合足以重構一個文檔的層級結構T。

難點：實體外表相似、層級嵌套nested，以及不同文檔具備多樣性。

2.1 ImageConversion

將輸入文檔圖轉化成分辨率為ρ的圖片，這個分辨率是預定義的，然后所有圖片resize到固定大小φ（必要時補零zero padding）；之后圖片經過預處理，所有圖片的RGB通道都類比MS COCO數據集進行標準化處理，這么做是為了后續初始化模型的時候利用這個數據集的預訓練的權重。

2.2 EntityDetection

利用 Mask R-CNN構造模型，做圖像分割識別一個文檔圖片內的所有實體。這個模型以上一階段產生的圖片作為輸入，輸出一個實體列表E1,...,Em。對每一個實體， Mask R-CNN確定：1）它的方形bounding box，2）confidence score置信度，3） a binary segmentation mask （區分bounding box里檢測的實體及背景像素pixel），4）實體的類別標簽，共23類，CONTENT BLOCK, TABLE, TABLE ROW, TABLE COLUMN, TABLE CELL, TABULAR, FIGURE, HEADING, ABSTRACT, EQUATION, ITEMIZE, ITEM, BIBLIOGRAPHY BLOCK, TABLE CAPTION, FIGURE GRAPHIC, FIGURE CAPTION, HEADER, FOOTER, PAGE NUMBER, DATE, KEYWORDS, AUTHOR, AFFILIATION。

2.3 Relation Classi?cation

基本是啟發式的算法。

2.3.1 nesting（ parent of）這里分4步:

h1: Overlaps，通過IOU判斷檢測框之間的重疊關系；

h2: Grammar Check，語法檢查；

h3: Direct?Children，對候選列表修整，只保留直系孩子direct children，sub-children會被移除；

h4: Unique Parents，對候選列表修整，使每個實體只有一個父節點；

2.3.2 ordering (followed by）

實體根據自然閱讀順序排列（比如從左至右）。默認情況下，所有實體都將經過這兩種heuristics處理：

Page Layout Entities主要是確定頁面是單欄布局或多欄布局；

Reading Flow:根據閱讀順序重組節點順序；

3 實驗結果

在ICDAR表格結構分析的效果：

EI智能體 OCR 機器學習

標簽：論文解讀系列十五

elasticsearch入門 系列">elasticsearch入門 系列

694 2022-05-29

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

694 2022-05-29

Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理

694 2022-05-29

論文 解讀 系列 十五：文檔結構分析

elasticsearch入門 系列">elasticsearch入門 系列

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

論文解讀系列十五：文檔結構分析

elasticsearch入門系列">elasticsearch入門系列

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

Kubernetes系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes系列四：談 Kubernetes 的架構設計與實現原理

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理">Kubernetes 系列四：談 Kubernetes 的架構設計與實現原理