如何快速準備高質量的AI數據?

      網友投稿 781 2025-04-01

      如何快速準備高質量的AI數據?

      一、背景

      通常來講,AI人工智能的三要素是數據、算法和算力。這三要素缺一不可,都是人工智能快速發展的必備條件。這一輪AI熱潮得以快速發展,也正是得益于這三個要素已經準備就緒。數據的質量會影響模型的精度,一般來說,大量高質量的數據更有可能訓練出高精度AI模型。現在很多算法使用常規數據能將準確率做到85%或者90%,而商業化應用往往要求更高,如果將要模型精度提升至96%甚至99%,則需要大量高質量的數據,這個時候也會要求數據更加精細化、場景化、專業化,這往往也成為了AI模型突破瓶頸的關鍵性條件。

      而在大多數人工智能和機器學習項目中,數據準備和工程任務占了80%以上的時間,其中數據清洗和數據標注占了整個項目的50%左右。而數據準備非常消耗人力,如何快速準備大量高質量的數據已經成為AI開發過程中一個極具挑戰性的問題。

      ModelArts是面向AI開發者的一站式開發平臺,能夠支撐開發者從數據到AI應用的全流程開發過程,包含數據處理、算法開發、模型訓練、模型部署等操作。并且提供AI Gallery功能,能夠在市場內與其他開發者分享數據、算法、模型等。為了能幫用戶快速準備大量高質量的數據,ModelArts數據管理提供了以下主要能力:

      提供了數據預覽和多維篩選等功能方便AI開發者快速識別數據;

      提供了數據校驗、自動分組等數據處理功能加速數據清洗;

      提供了12種以上的標注工具來幫助用戶標注各個場景的數據;

      提供了智能標注、團隊標注等功能加速標注、保障標注質量。

      更多功能請見ModelArts數據管理:

      ModelArts數據管理為準備高質量的AI數據提供的能力

      本案例將以交通標志識別原始數據集為基礎,將使用ModelArts為您演示:(1).如何使用數據校驗功能快速對數據進行清洗;(2).如何使用自動分組功能從眾多數據中選出想要的數據;(3).如何使用標注工具快速完成標注;(4).如何使用智能標注等功能加速數據標注。用戶只需要進行確認或者稍作調整即可完成標注,可以大大提高數據標注效率,節省用戶標注時間。

      當您完成這個案例,您將掌握如何使用ModelArts快速準備大量高質量的數據。

      二、準備

      在開始之前,您需要進行相關的準備工作,包括注冊華為云賬號、實名認證、ModelArts全局配置和OBS相關操作,詳細請參考此文檔。

      三、操作

      本次案例主要分為以下幾個步驟:①從AI Gallery下載數據集到ModelArts數據管理,② 數據校驗:處理非法數據,?③自動分組:刪除不想要的數據,④數據標注:對數據打標注,⑤智能標注:使用AI技術加速數據標注,⑥發布數據集:共享數據。

      操作流程圖

      1. 下載數據集

      該案例的數據集名稱為“交通標志識別原始數據集”,已經上傳到AI Gallery,AI Gallery地址為https://marketplace.huaweicloud.com/markets/aihub/datasets/list/。進入AI Gallery后需要選擇數據欄,然后在AI Gallery搜索數據集名稱“交通標志識別原始數據集”,或者點擊數據集鏈接下載。

      搜索數據集名稱“交通標志識別原始數據集”

      “交通標志識別原始數據集” 詳情

      選擇該數據集進行下載,配置數據集的目標位置(需要現在OBS創建桶和目錄),修改名稱為“交通標志識別”,可以根據自己的情況加上描述。點擊確認下載后,頁面會跳轉到“我的數據”頁面,這個時候可以點擊“我的下載”頁面查看下載進度。

      下載“交通標志識別原始數據集”

      下載進度

      數據集詳情

      2. 數據清洗

      1)數據識別

      當完成數據下載后,一般需要先進行數據識別,查看數據的大致情況,比如有多少數據、數據是什么樣的、是否需要清洗等。這個時候可以點擊“開始標注”,可以對數據進行預覽,可以看到數據集樣本列表。總共706張圖片:交通標志識別數據500張,其中100張已標注,400張未標注;植物200張;其他數據6張。樣本列表中的圖片也會展示標簽信息,右側有該數據集的全部標簽信息。目前已有的標簽為:

      標簽名

      含義

      green_go

      綠燈標簽,表示可以通行

      red_stop

      紅燈標簽,表示需要停止

      yellow_back

      黃燈標簽

      如何快速準備高質量的AI數據?

      pedestrian_crossing

      斑馬線,人行橫道

      speed_limited

      限速標簽

      speed_unlimited

      不限速標簽

      標簽信息

      數據集樣本列表

      2) 數據篩選

      進行數據查看時往往數據對數據進行篩選,選擇自己想看的數據。這個時候可以點擊篩選條件右側的展開,選擇相關條件進行篩選。ModelArts數據管理支持對標簽名稱、文件名稱、標注人、樣本屬性、難例信息等進行篩選。也可以選擇多個篩選條件同時進行篩選。

      數據篩選

      比如想查看標簽名為“green_go”的樣本列表信息,則可以直接選擇標簽名進行查看。

      標簽名為“green_go”的樣本列表。

      實際應用場景中數據往往夾雜著非法數據,需要對數據進行清洗。該數據集也有相關非法數據:編碼錯誤2張(badencode1.jpg,badencode2.jpg)、圖片后綴錯誤2張(badsuffix1.png,badsuffix2.png)、單通道2張(badchannel1.jpg,badchannel2.jpg)。比如根據文件名“badencode1.jpg”查看非法數據,可以看到圖片加載異常,因為圖片編碼有問題。

      根據文件名“badencode1.jpg”查看非法數據

      3) 創建“數據校驗”類型的數據處理作業

      ModelArts數據處理提供了“數據校驗”功能,可以對數據進行檢查。可以去ModelArts主頁下的數據處理頁面創建數據處理作業。

      數據處理頁面

      創建數據處理作業時可以修改作業名稱為“datavalidate”,選擇場景類別“物體檢測”,數據處理類型為“數據校驗”,輸入為數據集“交通標志識別”的V001版本,數據為數據集“交通標志識別”V002版本。

      創建“數據校驗”類型的數據處理作業

      4)查看數據校驗作業結果

      數據校驗結果確認:等待數據處理作業完成,預計需要幾分鐘。等待作業“datavalidate”完成后可以查看數據,選擇輸出數據集為“交通標志識別”V002版本,這個時候會提示是否切換版本,點擊是,會切換版本,并且跳轉到數據集頁面,展示數據集詳情。如果不切換版本,數據集展示的還是數據校驗前的數據,可能會導致后面的步驟失敗。查看結果,可以看到只有704張圖片,2張編碼格式有問題的已刪除,后綴不對的2張和單通道的2張圖片已修改。即已經對數據集完成數據清洗。

      選擇查看輸出數據集版本

      根據文件名“badencode1.jpg”查看,非法數據已被清洗

      3.??? 自動分組

      1)? ?啟動任務

      在對數據校驗之后,發現數據中有500張交通標志的圖片,200張植物的圖片,4張其他的圖片。如果前面數據未順利獲取到,可以直接選擇從AI Gallery下載已進行數據校驗的數據集:交通標志識別已校驗數據集 。可參考下圖下載對應階段已處理好的數據:

      對應階段已處理好的數據

      這個時候如果一張一張去挑自己想標注的數據,或者刪除不想要的數據,會很慢很耗時。 這個時候可以選擇啟動自動分組功能,對交通標注數據和植物數據進行分組。進入頁面為全部,然后點擊自動分組就可以啟動任務。

      啟動自動分組任務進行數據選擇

      啟動自動分組任務時填入分組數為3,屬性名稱為group(也可以自定義),點擊確認,等待任務執行。自動分組任務會在右上角展示。

      啟動自動分組任務,填入參數

      自動分組進展查看

      2)? 任務結果查看

      自動分組運行完后,可以在全部頁簽展開篩選條件,選擇樣本屬性“group”,再選擇屬性值來查看結果:樣本屬性為“group”,值為0和1的基本為交通標志識別數據,區分在于兩個拍攝場景不一樣。樣本屬性為“group”,值為2的基本為植物數據。

      樣本屬性為“group”,值為0的篩選結果

      樣本屬性為“group”,值為1的篩選結果

      樣本屬性為“group”,值為2的篩選結果

      3)? 刪除數據

      這樣數據就已經完成分組,而且分組結果比較準確。我們可以根據結果,將植物數據進行批量刪除。點擊圖片列表右上角的“選擇當前頁”,選擇所有數據,然后瀏覽一遍數據,如果發現已選的數據中有想要的數據,可以取消選擇該圖片,處理完后再點擊“刪除圖片”,即可完成批量圖片刪除。刪除完成后,基本只剩交通標志識別的數據了。

      批量刪除不想要的圖片

      4.??? 數據標注

      在完成數據清洗,刪除不想要的數據后,需要對數據進行標注。此時數據還剩大概500張圖片。如果前面數據未順利獲取到,可以直接選擇從AI Gallery下載已進行數據清洗的數據集:交通標志識別已清洗數據集

      在數據集樣本列表頁面,點擊“未標注”頁簽,篩選條件中樣本屬性為“group”,值為0,即可看到交通標志數據數據集中第一個場景的數據。更多使用信息可以查看用戶指南。

      “未標注”頁簽樣本屬性為“group”,值為0的樣本列表

      圖標

      使用說明

      矩形。鼠標單擊標注對象左上角邊緣位置,界面將出現矩形框,移動鼠標使得矩形框覆蓋標注對象,然后單擊完成標注。

      多邊形。在標注對象所在范圍內,鼠標左鍵單擊完成一個點的標注,沿著物體的形狀邊緣,通過鼠標指定多個點,最終單擊到第一個點的位置,由所有的點組成一個多邊形形狀。使得需標注的對象在此標注框內。

      圓形。在標注對象中,選擇物體的中心點位置,單擊鼠標確定圓心,然后移動鼠標,使得圓形框覆蓋標注對象,然后再單擊鼠標完成標注。

      直線。在標注對象中,選擇物體的起始點,單擊鼠標確定直線的起始點,然后使得直線覆蓋標注對象,然后再單擊鼠標完成標注。

      虛線。在標注對象中,選擇物體的起始點,單擊鼠標確定虛線的起始點,然后使得虛線覆蓋標注對象,然后再單擊鼠標完成標注。

      點。單擊圖片中的物體所在位置,即可完成點的標注。

      標注工具說明

      點擊任意一張圖片即可進入樣本詳情頁面進行標注,標注頁面會有標注工具欄、圖片詳情展示、圖片列表、標簽列表、圖片切換等功能,如下圖所示。

      圖片標注頁面

      選擇矩形框,左擊繪制選擇標注位置,然后選擇標簽,即可完成標注,點擊下一張會自動保存標注結果。也可以使用快捷鍵N切換到下一張。

      進行數據標注

      5.? 智能標注

      使用過程中可以感覺到物體檢測任務的標注工作量很大,而且手動標注效率不高,這個時候就可以使用智能標注功能來加速。

      智能標注會對用戶未標注的數據進行自動標注,用戶只需要進行確認或者稍作調整即可完成標注。

      智能標注主動學習的原理是使用已有的部分數據和ModelArts內置算法來訓練一個模型,然后使用模型對剩下未標注的圖片進行預測。其中快速型是監督算法,使用的是已標注數據進行訓練,精準型為半監督算法,使用的是已標注和未標注的數據進行訓練。用戶也可以選擇自己的模型進行智能標注,這個時候可以選擇智能標注的預標注功能,同樣能得到自動標注的預測結果。預測完成后,人只需要對預測結果進行準確性的檢查,預測準確的圖片就直接使用算法標注的結果,預測不準確的就人工修正一下標注,這種人機協作的方式,就能大幅度提升標注效率,節省用戶標注時間。

      1)? ?啟動智能標注

      啟動智能標注前,建議每個標簽標15張以上,這樣進度會更高。點擊樣本列表的右上角“啟動智能標注”,使用默認選項即可,點擊提交即可開始智能標注。

      啟動智能標注入口

      確定啟動智能標注

      2)? 查看智能標注進展

      提交智能標注任務之后即會跳轉到智能標注進展頁面,也可以點擊“待確認”頁簽查看任務進度。

      智能標注任務進展

      3)???? 確認智能標注結果

      智能標注運行完成后,可以在“待確認”頁簽看到智能標注結果。

      智能標注結果列表

      未標注402張,智能標注結果也是402張。點擊具體的圖片進入詳情頁面確認。確認標簽準確性,如果準確,直接可以點擊“確認標注”,如果發現不對,可以調整標注結果再點擊“確認標注”。

      確認智能標注結果

      6.??? 發布數據集

      1)????? 發布數據集版本

      完成數據標注之后可以發布數據集版本,可以選擇數據切分和寫入描述,也可以不選。

      發布數據集版本

      發布完成之后會生產固定化的版本,記錄總共多少樣本,已標注多少樣本。也會生成manifest文件。Manifest里面會記錄所有樣本信息及其標注文件存儲信息,對于物體檢測,標注未見為Pascal VOC形式的XML文件,詳細描述請見官方文檔。

      版本詳情

      2)???? 發布數據集版本到AI Gallery

      在發布完數據集版本后,可以在ModelArts訓練中選擇該版本進行訓練,也可以將該數據集發布到AI Gallery,共享給其他用戶。進入AI Gallery下的數據頁面,點擊“發布”按鈕,填寫發布數據集的名稱,比如“HDC2021--交通標志識別數據集”,選擇數據集名稱“交通標志識”和版本“V003”,選擇數據類型為圖片,選擇許可類型。點擊發布即可。

      AI Gallery發布數據集

      發布數據集到AI Gallery

      發布完數據集之后可以點擊編輯按鈕,完善數據集信息,包括數據集首頁

      點擊編輯完善數據集信息

      至此,本案例完成。

      華為開發者大會視頻直播(演講)--如何快速準備高質量的AI數據?:https://live.huawei.com/hdc2021/meeting/cn/8326.html

      華為開發者大會視頻直播(案例實操)--如何快速準備高質量的AI數據?:https://live.huawei.com/hdc2021/meeting/cn/8328.html

      附件: 如何快速準備高質量的AI數據?.pdf 2.81MB 下載次數:3次

      AI AI開發平臺ModelArts 智能數據 機器學習

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:在線表格生成
      下一篇:WPS文字縮進對齊教程
      相關文章
      91久久亚洲国产成人精品性色| 亚洲国产精品无码久久SM| 亚洲色偷偷av男人的天堂| 国产成人亚洲综合色影视| 亚洲精品无码成人片在线观看 | 亚洲大片在线观看| 亚洲中文字幕无码中文字在线| 国产亚洲精品免费| 久久精品国产亚洲av天美18| 亚洲爆乳无码专区www| 亚洲国产精品无码观看久久| 亚洲国产日韩精品| 亚洲中文字幕无码久久| 亚洲人成网站18禁止| 亚洲午夜成人精品无码色欲| 亚洲成A人片在线播放器| 2020国产精品亚洲综合网 | 亚洲一区二区三区香蕉| 亚洲一区二区三区影院| 国产AV无码专区亚洲精品| 亚洲国产精品无码专区| 亚洲国产精品一区| 亚洲美女在线观看播放| 亚洲人成综合在线播放| 亚洲精品国产日韩| 久久亚洲精品无码gv| 亚洲福利中文字幕在线网址| 不卡精品国产_亚洲人成在线| 亚洲中文久久精品无码| 久久精品国产精品亚洲艾草网| 亚洲一区二区三区电影| 亚洲人成黄网在线观看| 亚洲精品国产第一综合99久久| 日产国产精品亚洲系列| 国外亚洲成AV人片在线观看| 亚洲av无码一区二区乱子伦as| 久久久无码精品亚洲日韩按摩 | 亚洲日本中文字幕天堂网| 国产亚洲免费的视频看| 亚洲伦另类中文字幕| 亚洲国产成人资源在线软件|