論文解讀系列十五:文檔結構分析

      網友投稿 694 2022-05-29

      1?文章摘要

      提出一個端到端的文檔結構分析方案(DocParser),對文檔(掃描版、圖片版等)進行結構提取,包括實體識別(這里實體指所有需要檢測的元素,包括文本、行、列、單元格等)和關系分類。 基于TEX和synctex,通過反向生成TEX代碼生成弱監督標簽。

      論文解讀系列十五:文檔結構分析

      2?解決方案

      給定文檔集D,目標是生成層級結構T,其中T包括實體及實體間的關系Relations。對于實體,E指文檔中的各種元素,如數字、表、行、單元格等,每個實體包括3個特性,1. 語義類別, 2. 檢測框(bouding box)的坐標,3. 置信度(confidence score)。對于Relations,R由三元組(Esubj,Eobj,Ψ) 給定, 關系類別Ψ ∈ {parent of ,followed by,null},null表示其它無關的實體,例如頁眉頁腳。

      實體E及其關系R的組合足以重構一個文檔的層級結構T。

      難點:實體外表相似、層級嵌套nested,以及不同文檔具備多樣性。

      2.1 ImageConversion

      將輸入文檔圖轉化成分辨率為ρ的圖片,這個分辨率是預定義的,然后所有圖片resize到固定大小φ(必要時補零zero padding); 之后圖片經過預處理,所有圖片的RGB通道都類比MS COCO數據集進行標準化處理, 這么做是為了后續初始化模型的時候利用這個數據集的預訓練的權重。

      2.2 EntityDetection

      利用 Mask R-CNN構造模型,做圖像分割識別一個文檔圖片內的所有實體。這個模型以上一階段產生的圖片作為輸入,輸出一個實體列表E1,...,Em。對每一個實體, Mask R-CNN確定:1) 它的方形bounding box,2)confidence score置信度,3) a binary segmentation mask (區分bounding box里檢測的實體及背景像素pixel),4) 實體的類別標簽, 共23類,CONTENT BLOCK, TABLE, TABLE ROW, TABLE COLUMN, TABLE CELL, TABULAR, FIGURE, HEADING, ABSTRACT, EQUATION, ITEMIZE, ITEM, BIBLIOGRAPHY BLOCK, TABLE CAPTION, FIGURE GRAPHIC, FIGURE CAPTION, HEADER, FOOTER, PAGE NUMBER, DATE, KEYWORDS, AUTHOR, AFFILIATION。

      2.3 Relation Classi?cation

      基本是啟發式的算法 。

      2.3.1 nesting( parent of)這里分4步:

      h1: Overlaps,通過IOU判斷檢測框之間的重疊關系;

      h2: Grammar Check,語法檢查;

      h3: Direct?Children,對候選列表修整,只保留直系孩子direct children,sub-children會被移除;

      h4: Unique Parents,對候選列表修整,使每個實體只有一個父節點;

      2.3.2 ordering (followed by)

      實體根據自然閱讀順序排列(比如從左至右)。默認情況下,所有實體都將經過這兩種heuristics處理:

      Page Layout Entities主要是確定頁面是單欄布局或多欄布局;

      Reading Flow:根據閱讀順序重組節點順序;

      3 實驗結果

      在ICDAR表格結構分析的效果:

      EI智能體 OCR 機器學習

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Swagger框架學習
      下一篇:開發者的瑞士軍刀Eolink,目測要火
      相關文章
      亚洲一区二区三区精品视频| 亚洲国产综合人成综合网站00| ass亚洲**毛茸茸pics| 18gay台湾男同亚洲男同| 亚洲国产老鸭窝一区二区三区| 亚洲国产精品成人精品无码区 | 黑人大战亚洲人精品一区| 亚洲乱码中文字幕综合234| 亚洲Aⅴ无码一区二区二三区软件| 丰满亚洲大尺度无码无码专线 | 国产99久久亚洲综合精品| 国产av无码专区亚洲av毛片搜 | 亚洲最大在线视频| 亚洲啪啪免费视频| 久久精品国产亚洲AV忘忧草18| 亚洲人成综合在线播放| 亚洲中文无码av永久| 国产99在线|亚洲| 亚洲欧美熟妇综合久久久久| 亚洲a∨无码一区二区| 午夜亚洲国产成人不卡在线| 亚洲精品乱码久久久久久不卡 | 久久精品国产亚洲Aⅴ蜜臀色欲| 久久激情亚洲精品无码?V| 亚洲狠狠婷婷综合久久久久| 亚洲AV无码AV男人的天堂| 亚洲黄色在线网站| 亚洲另类古典武侠| 亚洲熟妇AV一区二区三区宅男| 亚洲av日韩av永久无码电影| 无码国产亚洲日韩国精品视频一区二区三区 | 亚洲精品色在线网站| 亚洲 无码 在线 专区| 在线观看午夜亚洲一区| 久久久久亚洲AV成人无码| 亚洲国产午夜电影在线入口| 亚洲精品宾馆在线精品酒店| 亚洲成a人无码av波多野按摩 | 亚洲小说图区综合在线| 爱情岛亚洲论坛在线观看| 亚洲伊人成无码综合网|