elasticsearch入門系列">elasticsearch入門系列
694
2022-05-29
1?文章摘要
提出一個端到端的文檔結構分析方案(DocParser),對文檔(掃描版、圖片版等)進行結構提取,包括實體識別(這里實體指所有需要檢測的元素,包括文本、行、列、單元格等)和關系分類。 基于TEX和synctex,通過反向生成TEX代碼生成弱監督標簽。
2?解決方案
給定文檔集D,目標是生成層級結構T,其中T包括實體及實體間的關系Relations。對于實體,E指文檔中的各種元素,如數字、表、行、單元格等,每個實體包括3個特性,1. 語義類別, 2. 檢測框(bouding box)的坐標,3. 置信度(confidence score)。對于Relations,R由三元組(Esubj,Eobj,Ψ) 給定, 關系類別Ψ ∈ {parent of ,followed by,null},null表示其它無關的實體,例如頁眉頁腳。
實體E及其關系R的組合足以重構一個文檔的層級結構T。
難點:實體外表相似、層級嵌套nested,以及不同文檔具備多樣性。
2.1 ImageConversion
將輸入文檔圖轉化成分辨率為ρ的圖片,這個分辨率是預定義的,然后所有圖片resize到固定大小φ(必要時補零zero padding); 之后圖片經過預處理,所有圖片的RGB通道都類比MS COCO數據集進行標準化處理, 這么做是為了后續初始化模型的時候利用這個數據集的預訓練的權重。
2.2 EntityDetection
利用 Mask R-CNN構造模型,做圖像分割識別一個文檔圖片內的所有實體。這個模型以上一階段產生的圖片作為輸入,輸出一個實體列表E1,...,Em。對每一個實體, Mask R-CNN確定:1) 它的方形bounding box,2)confidence score置信度,3) a binary segmentation mask (區分bounding box里檢測的實體及背景像素pixel),4) 實體的類別標簽, 共23類,CONTENT BLOCK, TABLE, TABLE ROW, TABLE COLUMN, TABLE CELL, TABULAR, FIGURE, HEADING, ABSTRACT, EQUATION, ITEMIZE, ITEM, BIBLIOGRAPHY BLOCK, TABLE CAPTION, FIGURE GRAPHIC, FIGURE CAPTION, HEADER, FOOTER, PAGE NUMBER, DATE, KEYWORDS, AUTHOR, AFFILIATION。
2.3 Relation Classi?cation
基本是啟發式的算法 。
2.3.1 nesting( parent of)這里分4步:
h1: Overlaps,通過IOU判斷檢測框之間的重疊關系;
h2: Grammar Check,語法檢查;
h3: Direct?Children,對候選列表修整,只保留直系孩子direct children,sub-children會被移除;
h4: Unique Parents,對候選列表修整,使每個實體只有一個父節點;
2.3.2 ordering (followed by)
實體根據自然閱讀順序排列(比如從左至右)。默認情況下,所有實體都將經過這兩種heuristics處理:
Page Layout Entities主要是確定頁面是單欄布局或多欄布局;
Reading Flow:根據閱讀順序重組節點順序;
3 實驗結果
在ICDAR表格結構分析的效果:
EI智能體 OCR 機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。