如何快速準備高質量的AI數據?
如何快速準備高質量的AI數據?
一、背景
通常來講,AI人工智能的三要素是數據、算法和算力。這三要素缺一不可,都是人工智能快速發展的必備條件。這一輪AI熱潮得以快速發展,也正是得益于這三個要素已經準備就緒。數據的質量會影響模型的精度,一般來說,大量高質量的數據更有可能訓練出高精度AI模型。現在很多算法使用常規數據能將準確率做到85%或者90%,而商業化應用往往要求更高,如果將要模型精度提升至96%甚至99%,則需要大量高質量的數據,這個時候也會要求數據更加精細化、場景化、專業化,這往往也成為了AI模型突破瓶頸的關鍵性條件。
而在大多數人工智能和機器學習項目中,數據準備和工程任務占了80%以上的時間,其中數據清洗和數據標注占了整個項目的50%左右。而數據準備非常消耗人力,如何快速準備大量高質量的數據已經成為AI開發過程中一個極具挑戰性的問題。
ModelArts是面向AI開發者的一站式開發平臺,能夠支撐開發者從數據到AI應用的全流程開發過程,包含數據處理、算法開發、模型訓練、模型部署等操作。并且提供AI Gallery功能,能夠在市場內與其他開發者分享數據、算法、模型等。為了能幫用戶快速準備大量高質量的數據,ModelArts數據管理提供了以下主要能力:
提供了數據預覽和多維篩選等功能方便AI開發者快速識別數據;
提供了數據校驗、自動分組等數據處理功能加速數據清洗;
提供了12種以上的標注工具來幫助用戶標注各個場景的數據;
提供了智能標注、團隊標注等功能加速標注、保障標注質量。
更多功能請見ModelArts數據管理:
ModelArts數據管理為準備高質量的AI數據提供的能力
本案例將以交通標志識別原始數據集為基礎,將使用ModelArts為您演示:(1).如何使用數據校驗功能快速對數據進行清洗;(2).如何使用自動分組功能從眾多數據中選出想要的數據;(3).如何使用標注工具快速完成標注;(4).如何使用智能標注等功能加速數據標注。用戶只需要進行確認或者稍作調整即可完成標注,可以大大提高數據標注效率,節省用戶標注時間。
當您完成這個案例,您將掌握如何使用ModelArts快速準備大量高質量的數據。
二、準備
在開始之前,您需要進行相關的準備工作,包括注冊華為云賬號、實名認證、ModelArts全局配置和OBS相關操作,詳細請參考此文檔。
三、操作
本次案例主要分為以下幾個步驟:①從AI Gallery下載數據集到ModelArts數據管理,② 數據校驗:處理非法數據,?③自動分組:刪除不想要的數據,④數據標注:對數據打標注,⑤智能標注:使用AI技術加速數據標注,⑥發布數據集:共享數據。
操作流程圖
1. 下載數據集
該案例的數據集名稱為“交通標志識別原始數據集”,已經上傳到AI Gallery,AI Gallery地址為https://marketplace.huaweicloud.com/markets/aihub/datasets/list/。進入AI Gallery后需要選擇數據欄,然后在AI Gallery搜索數據集名稱“交通標志識別原始數據集”,或者點擊數據集鏈接下載。
搜索數據集名稱“交通標志識別原始數據集”
“交通標志識別原始數據集” 詳情
選擇該數據集進行下載,配置數據集的目標位置(需要現在OBS創建桶和目錄),修改名稱為“交通標志識別”,可以根據自己的情況加上描述。點擊確認下載后,頁面會跳轉到“我的數據”頁面,這個時候可以點擊“我的下載”頁面查看下載進度。
下載“交通標志識別原始數據集”
下載進度
數據集詳情
2. 數據清洗
1)數據識別
當完成數據下載后,一般需要先進行數據識別,查看數據的大致情況,比如有多少數據、數據是什么樣的、是否需要清洗等。這個時候可以點擊“開始標注”,可以對數據進行預覽,可以看到數據集樣本列表。總共706張圖片:交通標志識別數據500張,其中100張已標注,400張未標注;植物200張;其他數據6張。樣本列表中的圖片也會展示標簽信息,右側有該數據集的全部標簽信息。目前已有的標簽為:
標簽名
含義
green_go
綠燈標簽,表示可以通行
red_stop
紅燈標簽,表示需要停止
yellow_back
黃燈標簽
pedestrian_crossing
斑馬線,人行橫道
speed_limited
限速標簽
speed_unlimited
不限速標簽
標簽信息
數據集樣本列表
2) 數據篩選
進行數據查看時往往數據對數據進行篩選,選擇自己想看的數據。這個時候可以點擊篩選條件右側的展開,選擇相關條件進行篩選。ModelArts數據管理支持對標簽名稱、文件名稱、標注人、樣本屬性、難例信息等進行篩選。也可以選擇多個篩選條件同時進行篩選。
數據篩選
比如想查看標簽名為“green_go”的樣本列表信息,則可以直接選擇標簽名進行查看。
標簽名為“green_go”的樣本列表。
實際應用場景中數據往往夾雜著非法數據,需要對數據進行清洗。該數據集也有相關非法數據:編碼錯誤2張(badencode1.jpg,badencode2.jpg)、圖片后綴錯誤2張(badsuffix1.png,badsuffix2.png)、單通道2張(badchannel1.jpg,badchannel2.jpg)。比如根據文件名“badencode1.jpg”查看非法數據,可以看到圖片加載異常,因為圖片編碼有問題。
根據文件名“badencode1.jpg”查看非法數據
3) 創建“數據校驗”類型的數據處理作業
ModelArts數據處理提供了“數據校驗”功能,可以對數據進行檢查。可以去ModelArts主頁下的數據處理頁面創建數據處理作業。
數據處理頁面
創建數據處理作業時可以修改作業名稱為“datavalidate”,選擇場景類別“物體檢測”,數據處理類型為“數據校驗”,輸入為數據集“交通標志識別”的V001版本,數據為數據集“交通標志識別”V002版本。
創建“數據校驗”類型的數據處理作業
4)查看數據校驗作業結果
數據校驗結果確認:等待數據處理作業完成,預計需要幾分鐘。等待作業“datavalidate”完成后可以查看數據,選擇輸出數據集為“交通標志識別”V002版本,這個時候會提示是否切換版本,點擊是,會切換版本,并且跳轉到數據集頁面,展示數據集詳情。如果不切換版本,數據集展示的還是數據校驗前的數據,可能會導致后面的步驟失敗。查看結果,可以看到只有704張圖片,2張編碼格式有問題的已刪除,后綴不對的2張和單通道的2張圖片已修改。即已經對數據集完成數據清洗。
選擇查看輸出數據集版本
根據文件名“badencode1.jpg”查看,非法數據已被清洗
3.??? 自動分組
1)? ?啟動任務
在對數據校驗之后,發現數據中有500張交通標志的圖片,200張植物的圖片,4張其他的圖片。如果前面數據未順利獲取到,可以直接選擇從AI Gallery下載已進行數據校驗的數據集:交通標志識別已校驗數據集 。可參考下圖下載對應階段已處理好的數據:
對應階段已處理好的數據
這個時候如果一張一張去挑自己想標注的數據,或者刪除不想要的數據,會很慢很耗時。 這個時候可以選擇啟動自動分組功能,對交通標注數據和植物數據進行分組。進入頁面為全部,然后點擊自動分組就可以啟動任務。
啟動自動分組任務進行數據選擇
啟動自動分組任務時填入分組數為3,屬性名稱為group(也可以自定義),點擊確認,等待任務執行。自動分組任務會在右上角展示。
啟動自動分組任務,填入參數
自動分組進展查看
2)? 任務結果查看
自動分組運行完后,可以在全部頁簽展開篩選條件,選擇樣本屬性“group”,再選擇屬性值來查看結果:樣本屬性為“group”,值為0和1的基本為交通標志識別數據,區分在于兩個拍攝場景不一樣。樣本屬性為“group”,值為2的基本為植物數據。
樣本屬性為“group”,值為0的篩選結果
樣本屬性為“group”,值為1的篩選結果
樣本屬性為“group”,值為2的篩選結果
3)? 刪除數據
這樣數據就已經完成分組,而且分組結果比較準確。我們可以根據結果,將植物數據進行批量刪除。點擊圖片列表右上角的“選擇當前頁”,選擇所有數據,然后瀏覽一遍數據,如果發現已選的數據中有想要的數據,可以取消選擇該圖片,處理完后再點擊“刪除圖片”,即可完成批量圖片刪除。刪除完成后,基本只剩交通標志識別的數據了。
批量刪除不想要的圖片
4.??? 數據標注
在完成數據清洗,刪除不想要的數據后,需要對數據進行標注。此時數據還剩大概500張圖片。如果前面數據未順利獲取到,可以直接選擇從AI Gallery下載已進行數據清洗的數據集:交通標志識別已清洗數據集
在數據集樣本列表頁面,點擊“未標注”頁簽,篩選條件中樣本屬性為“group”,值為0,即可看到交通標志數據數據集中第一個場景的數據。更多使用信息可以查看用戶指南。
“未標注”頁簽樣本屬性為“group”,值為0的樣本列表
圖標
使用說明
矩形。鼠標單擊標注對象左上角邊緣位置,界面將出現矩形框,移動鼠標使得矩形框覆蓋標注對象,然后單擊完成標注。
多邊形。在標注對象所在范圍內,鼠標左鍵單擊完成一個點的標注,沿著物體的形狀邊緣,通過鼠標指定多個點,最終單擊到第一個點的位置,由所有的點組成一個多邊形形狀。使得需標注的對象在此標注框內。
圓形。在標注對象中,選擇物體的中心點位置,單擊鼠標確定圓心,然后移動鼠標,使得圓形框覆蓋標注對象,然后再單擊鼠標完成標注。
直線。在標注對象中,選擇物體的起始點,單擊鼠標確定直線的起始點,然后使得直線覆蓋標注對象,然后再單擊鼠標完成標注。
虛線。在標注對象中,選擇物體的起始點,單擊鼠標確定虛線的起始點,然后使得虛線覆蓋標注對象,然后再單擊鼠標完成標注。
點。單擊圖片中的物體所在位置,即可完成點的標注。
標注工具說明
點擊任意一張圖片即可進入樣本詳情頁面進行標注,標注頁面會有標注工具欄、圖片詳情展示、圖片列表、標簽列表、圖片切換等功能,如下圖所示。
圖片標注頁面
選擇矩形框,左擊繪制選擇標注位置,然后選擇標簽,即可完成標注,點擊下一張會自動保存標注結果。也可以使用快捷鍵N切換到下一張。
進行數據標注
5.? 智能標注
使用過程中可以感覺到物體檢測任務的標注工作量很大,而且手動標注效率不高,這個時候就可以使用智能標注功能來加速。
智能標注會對用戶未標注的數據進行自動標注,用戶只需要進行確認或者稍作調整即可完成標注。
智能標注主動學習的原理是使用已有的部分數據和ModelArts內置算法來訓練一個模型,然后使用模型對剩下未標注的圖片進行預測。其中快速型是監督算法,使用的是已標注數據進行訓練,精準型為半監督算法,使用的是已標注和未標注的數據進行訓練。用戶也可以選擇自己的模型進行智能標注,這個時候可以選擇智能標注的預標注功能,同樣能得到自動標注的預測結果。預測完成后,人只需要對預測結果進行準確性的檢查,預測準確的圖片就直接使用算法標注的結果,預測不準確的就人工修正一下標注,這種人機協作的方式,就能大幅度提升標注效率,節省用戶標注時間。
1)? ?啟動智能標注
啟動智能標注前,建議每個標簽標15張以上,這樣進度會更高。點擊樣本列表的右上角“啟動智能標注”,使用默認選項即可,點擊提交即可開始智能標注。
啟動智能標注入口
確定啟動智能標注
2)? 查看智能標注進展
提交智能標注任務之后即會跳轉到智能標注進展頁面,也可以點擊“待確認”頁簽查看任務進度。
智能標注任務進展
3)???? 確認智能標注結果
智能標注運行完成后,可以在“待確認”頁簽看到智能標注結果。
智能標注結果列表
未標注402張,智能標注結果也是402張。點擊具體的圖片進入詳情頁面確認。確認標簽準確性,如果準確,直接可以點擊“確認標注”,如果發現不對,可以調整標注結果再點擊“確認標注”。
確認智能標注結果
6.??? 發布數據集
1)????? 發布數據集版本
完成數據標注之后可以發布數據集版本,可以選擇數據切分和寫入描述,也可以不選。
發布數據集版本
發布完成之后會生產固定化的版本,記錄總共多少樣本,已標注多少樣本。也會生成manifest文件。Manifest里面會記錄所有樣本信息及其標注文件存儲信息,對于物體檢測,標注未見為Pascal VOC形式的XML文件,詳細描述請見官方文檔。
版本詳情
2)???? 發布數據集版本到AI Gallery
在發布完數據集版本后,可以在ModelArts訓練中選擇該版本進行訓練,也可以將該數據集發布到AI Gallery,共享給其他用戶。進入AI Gallery下的數據頁面,點擊“發布”按鈕,填寫發布數據集的名稱,比如“HDC2021--交通標志識別數據集”,選擇數據集名稱“交通標志識”和版本“V003”,選擇數據類型為圖片,選擇許可類型。點擊發布即可。
AI Gallery發布數據集
發布數據集到AI Gallery
發布完數據集之后可以點擊編輯按鈕,完善數據集信息,包括數據集首頁
點擊編輯完善數據集信息
至此,本案例完成。
華為開發者大會視頻直播(演講)--如何快速準備高質量的AI數據?:https://live.huawei.com/hdc2021/meeting/cn/8326.html
華為開發者大會視頻直播(案例實操)--如何快速準備高質量的AI數據?:https://live.huawei.com/hdc2021/meeting/cn/8328.html
附件: 如何快速準備高質量的AI數據?.pdf 2.81MB 下載次數:3次
AI AI開發平臺ModelArts 智能數據 機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。