MA Pro自定義模板應用系列1——合同信息結構化提取
MA Pro自定義模板開發套件的主要功能是幫助用戶快速的獲取結構化的識別結果,解決以往開發者每來一個新需求都要進行一次模型定制的苦惱。本系列博客將通過介紹一系列的應用案例,幫助讀者對自定義模板工具的應用建立一個具象的了解認識,自定義模板提供了一系列的開發能力幫助開發者甚至是業務人員輕松完成某一類文檔或卡證票據的結構化識別,當你遇到制式文檔或卡證票據的結構化識別的需求時,不妨嘗試使用自定義模板工具。我們將首先在本文介紹如何利用自定義模板來完成常見的合同信息的結構化提取任務。
一. 需求描述
合同是重要的業務載體,具有重要的分析利用價值。使用自定義模板服務,將合同文檔中的關鍵字段抽取出,形成規范化的結構化信息,如甲乙方、地址、電話等信息。
二. 需求場景分析
通過分析提供的數據可以發現:
同一種合同的不同樣本有可能存在提取的關鍵字段的位置發生波動的情況,針對這種待提取信息的位置動態變化的場景,我們選擇工具自帶的動態識別模式,這一模式專門為了解決目標信息位置不固定的場景。同時,我們需要才去一個小的使用技巧,及先擴大識別區域的框選,即我們首先定位到關鍵字段所在的行或者段,然后通過后處理的自定義字段類型操作,如低代碼開發的正則提取等手段,從行信息或者段信息中,將所要提取的關鍵字段做進一步處理。
合同場景,目標待提取的關鍵字段可能存在多頁上,所以我們使用多模板分類工作流來進行信息提取。制作的時候將存在提取關鍵字段的頁數制作成模板,經過訓練后通過自動分類,將數據分到對應的模板,完成關鍵字段的提取。
上述合同數據的位置浮動的樣例圖如下所示,同樣的合同,但是因為不同內容項的內容多少的不同或回車符的干擾,使得下方的內容的位置發生了變化。
三. 開發
開發流程如下,對于開發者只需要按部就班地操作即可。
1. 新建多模板工作空間
在自定義模板服務頁創建新項目,填寫項目相關信息,并選擇多模板分類工作流。
2. 創建分類器
在新建的項目中,創建分類器,輸入相關基本信息,并完成模板圖片的上傳。有哪些合同頁存在待提取的信息就需要上傳哪些,模板圖片選擇比較平整清晰的樣本效果會更好。
3. 框選參考字段
本示例中選擇的模板圖相對規整,所以可以直接跳過模板圖預處理進行參考字段框選階段。參考字段是框選內容固定的文字內容,以選取分散在四周進行框選為佳,逐個模板完成參考字段的框選。
4. 框選識別區
根據前述對于需求的分析,框選識別區域的時候,對不同的關鍵字段采用框選多行的策略,即先框選目標待提取字段所在的區域,然后通過自定義的后處理做進一步的精細化提取。
5. 訓練分類器及評估
標注好每一張模板后我們需要進行一個分類器的訓練,用來自動區分某一頁合同是多模板中的哪一個模板。本文我們所示的案例中僅存在五張模板,且不同模板間差異較大,分類任務比較簡單,所以可以選擇不上傳訓練集直接使用模板圖做訓練集開始分類器訓練。完成訓練后,工具會自動跳轉到了評估頁面,此處我們,可以測試一下分類器是否能夠準確的對數據進行分類,也可以打開動態識別看我們制作的模板是否把行信息提取出來。
分類器和單模板測試完畢后,我們可以關閉“打開分類模式”按鈕,只打開“動態識別按鈕”,進入分類器到模板的聯合測試。
6. 自定義字段類型編寫和優化
在通過前述測試確認已經準確的把行或段信息提取出來之后,在項目的自定義字段類型頁面,根據每個字段的真實場景,我們可以使用自定義字段類型的自定義正則提取功能,編寫相應的正則規則進一步精細化提取關鍵字段信息。
編輯好自定義的字段類型后,我們重新返回框選識別區頁面,給每個模板的每一個識別區選擇對應的自定義字段類型,選擇字段類型后,對應的后處理功能即會自動加入圖片的推理過程中。
完成識別區的自定義字段類型的勾選后,重新對測試數據進行評估,并根據提取結果繼續優化自定義字段類型中的后處理規則,直至準確提取所需要的關鍵字段。
如下圖,我們已經能夠準確地提取目標結構化信息,成功過濾掉了其他多余的信息。
機器學習 通用安全
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。