實戰案例 | 數據去重---ModelArts在數據處理上的應用技巧

      網友投稿 1321 2022-05-30

      在ModelArts平臺里預置了很多數據處理能力,其中一項就是數據去重。

      例如用戶拍攝了很多段視頻,對視頻進行抽幀,采集出來的數據可能存在大量重復數據,重復數據對模型精度提升并沒有太大作用,反而需要花費很多時間對其進行標注。如果用戶有這種場景,就可以使用ModelArts的數據去重能力,根據相似度去刪除一些重復度比較高的數據,從而節約用戶的標注量。

      數據去重技術簡介:

      如何判斷是同一張圖片呢?最簡單的方法是使用加密哈希(例如MD5, SHA-1)判斷。但是局限性非常大。例如一個txt文檔,其MD5值是根據這個txt的二進制數據計算的,如果是這個txt文檔的完全復制版,那他們的MD5值是完全相同的。但是,一旦改變副本的內容,哪怕只是副本的縮進格式,其MD5也會天差地別。因此加密哈希只能用于判斷兩個完全一致、未經修改的文件,如果是一張經過調色或者縮放的圖片,根本無法判斷其與另一張圖片是否為同一張圖片。

      那么如何判斷一張被PS過的圖片是否與另一張圖片本質上相同呢?常用的數據去重手段是將圖像抽象出一些特征,然后計算特征之間的相似度距離,根據相似度距離對數據去重。

      常見的特征包含:

      將圖像抽象成平均值ahash,平均散列,如果該像素是大于或等于平均值,每個像素輸出1,否則為0;然后根據hash值、漢明距離計算兩張圖片的相似性

      將圖像抽象成感知哈希phash,通過離散余弦變換(DCT)降低圖片頻率,相比aHash有更好魯棒性。將每個DCT值,與平均值進行比較。大于或等于平均值,記為1,小于平均值,記為0,由此生成二進制數組;然后根據hash值、漢明距離計算兩張圖的相似性

      將圖像抽象成差異值哈希dhash,如果每一行前一個像素大于后一個像素為1,否則為0;然后根據hash值、漢明距離計算兩張圖片的相似性

      將圖像用深度學習模型抽象成n維的高階特征;例如使用預訓練好的resnet_v1_50抽取全連接層前一層的特征,然后對這些特征進行余弦相似度計算

      如下操作步驟,以識別斑馬線和停車標志的分類數據集為例,指導如何從數據處理模塊中使用數據去重功能。

      1.準備工作

      2.數據準備

      3.創建任務

      實戰案例 | 數據去重---ModelArts在數據處理上的應用技巧

      4.參數設置

      5.開啟任務

      6.查看去重結果

      準備工作

      參考 ?準備工作 ,完成ModelArts準備工作。包括ModelArts全局配置和OBS相關操作。

      數據準備

      下載數據集

      本案例采用的數據集包含兩種物體:斑馬線和停車標志點擊 數據集下載 可以下載數據到本地,crossing_parking文件夾中包含斑馬線和停車標志圖片

      上傳數據至OBS

      使用OBS客戶端上傳本地的數據集文件夾至一個"華北-北京四"區域的OBS桶,數據存放在自定義的目錄下。

      創建數據集

      登陸華為云ModelArts平臺 ModelArts創建數據集,切換區域到“華北-北京四”。

      點擊頁面上的 創建數據集 按鈕,創建一個叫dataset-deduplication的數據集,創建數據集頁面填寫示例:

      數據集輸入位置即crossing_parking文件夾存放在OBS中的目錄

      創建完成后可以預覽,可以看到有很多相似度非常高的圖片。

      發布數據集

      回到數據集創建頁面,點擊發布按鈕,發布訓練集。數據集發布之后,就可以在后面的步驟中使用了。

      創建任務

      創建數據處理任務,在數據選擇模塊內選擇 數據去重 算法。

      參數設置

      設置參數,其中 similarity_threshold 為圖片相似程度閾值,設置為0.8時表示過濾掉相似程度大于0.8的圖片。

      開啟任務

      數據去重的輸入、輸出都可以指定為數據集或obs目錄形式。例如選擇 dataset-deduplication 分類數據集作為輸入,去重過后的數據保存到指定的obs桶目錄中。確定了輸入、輸出后,點擊 創建 開啟數據去重任務,

      等待幾分鐘任務完成

      查看去重結果

      最后將去重過后的數據再次導入數據集,可以看到保留下來的圖片相似程度都比較低

      ModelArts數據處理相關博客:

      1. 數據處理簡介:https://bbs.huaweicloud.com/blogs/193413

      2. 數據增強:https://bbs.huaweicloud.com/blogs/189148? 使用數據增強,解決數據不足和數據集不均衡的情況

      3. 數據生成域遷移:https://bbs.huaweicloud.com/blogs/193405? 數據風格變換:ModelArts的數據域遷移功能

      4. 數據校驗:https://bbs.huaweicloud.com/blogs/193412? ?數據校驗--給你的數據做個體檢吧

      5. 數據去重:https://bbs.huaweicloud.com/blogs/193420? 數據去重---ModelArts在數據處理上的應用技巧-免費,歡迎大家體驗

      6. 數據清洗:https://bbs.huaweicloud.com/blogs/193421? 數據清洗---ModelArts在數據處理上的應用技巧-免費,歡迎大家體驗

      7. 難例篩選:https://bbs.huaweicloud.com/blogs/193422? 如何加速AI模型迭代:Modelarts的難例篩選功能

      AI開發平臺ModelArts

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:GVFS協議與工作原理
      下一篇:云時代做接口測試的正確姿勢
      相關文章
      亚洲综合一区二区| 亚洲视频免费一区| 欧洲 亚洲 国产图片综合| 亚洲国产超清无码专区| 337p日本欧洲亚洲大胆精品555588| 亚洲av无码一区二区三区网站 | ASS亚洲熟妇毛茸茸PICS| 亚洲w码欧洲s码免费| 亚洲一区二区久久| 亚洲精品第一综合99久久| 亚洲熟妇无码AV不卡在线播放 | 亚洲国产成人片在线观看无码| 亚洲人成网站在线观看播放| 国产亚洲综合网曝门系列| 亚洲国产精品成人精品无码区在线| 亚洲乱码国产一区三区| 亚洲VA中文字幕不卡无码| 久久亚洲AV无码精品色午夜麻| 久久亚洲成a人片| 亚洲视频精品在线观看| 亚洲嫩草影院在线观看| 激情综合亚洲色婷婷五月| 2020天堂在线亚洲精品专区| 亚洲日日做天天做日日谢| 亚洲女子高潮不断爆白浆| 久久亚洲精品无码gv| 午夜在线亚洲男人午在线| 亚洲无码黄色网址| 亚洲精品国产精品乱码不99| 亚洲成人免费在线| 亚洲欧洲精品久久| 亚洲欧美日韩综合久久久| 天天综合亚洲色在线精品| 久久久久亚洲AV成人网人人软件| 亚洲伊人色欲综合网| 亚洲男人天堂av| 99久久婷婷国产综合亚洲| 精品韩国亚洲av无码不卡区| 亚洲一区精品伊人久久伊人| 亚洲成AV人片在线观看WWW| 亚洲第一页中文字幕|