亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析
1321
2022-05-30
在ModelArts平臺里預置了很多數據處理能力,其中一項就是數據去重。
例如用戶拍攝了很多段視頻,對視頻進行抽幀,采集出來的數據可能存在大量重復數據,重復數據對模型精度提升并沒有太大作用,反而需要花費很多時間對其進行標注。如果用戶有這種場景,就可以使用ModelArts的數據去重能力,根據相似度去刪除一些重復度比較高的數據,從而節約用戶的標注量。
數據去重技術簡介:
如何判斷是同一張圖片呢?最簡單的方法是使用加密哈希(例如MD5, SHA-1)判斷。但是局限性非常大。例如一個txt文檔,其MD5值是根據這個txt的二進制數據計算的,如果是這個txt文檔的完全復制版,那他們的MD5值是完全相同的。但是,一旦改變副本的內容,哪怕只是副本的縮進格式,其MD5也會天差地別。因此加密哈希只能用于判斷兩個完全一致、未經修改的文件,如果是一張經過調色或者縮放的圖片,根本無法判斷其與另一張圖片是否為同一張圖片。
那么如何判斷一張被PS過的圖片是否與另一張圖片本質上相同呢?常用的數據去重手段是將圖像抽象出一些特征,然后計算特征之間的相似度距離,根據相似度距離對數據去重。
常見的特征包含:
將圖像抽象成平均值ahash,平均散列,如果該像素是大于或等于平均值,每個像素輸出1,否則為0;然后根據hash值、漢明距離計算兩張圖片的相似性
將圖像抽象成感知哈希phash,通過離散余弦變換(DCT)降低圖片頻率,相比aHash有更好魯棒性。將每個DCT值,與平均值進行比較。大于或等于平均值,記為1,小于平均值,記為0,由此生成二進制數組;然后根據hash值、漢明距離計算兩張圖的相似性
將圖像抽象成差異值哈希dhash,如果每一行前一個像素大于后一個像素為1,否則為0;然后根據hash值、漢明距離計算兩張圖片的相似性
將圖像用深度學習模型抽象成n維的高階特征;例如使用預訓練好的resnet_v1_50抽取全連接層前一層的特征,然后對這些特征進行余弦相似度計算
如下操作步驟,以識別斑馬線和停車標志的分類數據集為例,指導如何從數據處理模塊中使用數據去重功能。
1.準備工作
2.數據準備
3.創建任務
4.參數設置
5.開啟任務
6.查看去重結果
準備工作
參考 ?準備工作 ,完成ModelArts準備工作。包括ModelArts全局配置和OBS相關操作。
數據準備
下載數據集
本案例采用的數據集包含兩種物體:斑馬線和停車標志點擊 數據集下載 可以下載數據到本地,crossing_parking文件夾中包含斑馬線和停車標志圖片
上傳數據至OBS
使用OBS客戶端上傳本地的數據集文件夾至一個"華北-北京四"區域的OBS桶,數據存放在自定義的目錄下。
創建數據集
登陸華為云ModelArts平臺 ModelArts創建數據集,切換區域到“華北-北京四”。
點擊頁面上的 創建數據集 按鈕,創建一個叫dataset-deduplication的數據集,創建數據集頁面填寫示例:
數據集輸入位置即crossing_parking文件夾存放在OBS中的目錄
創建完成后可以預覽,可以看到有很多相似度非常高的圖片。
發布數據集
回到數據集創建頁面,點擊發布按鈕,發布訓練集。數據集發布之后,就可以在后面的步驟中使用了。
創建任務
創建數據處理任務,在數據選擇模塊內選擇 數據去重 算法。
參數設置
設置參數,其中 similarity_threshold 為圖片相似程度閾值,設置為0.8時表示過濾掉相似程度大于0.8的圖片。
開啟任務
數據去重的輸入、輸出都可以指定為數據集或obs目錄形式。例如選擇 dataset-deduplication 分類數據集作為輸入,去重過后的數據保存到指定的obs桶目錄中。確定了輸入、輸出后,點擊 創建 開啟數據去重任務,
等待幾分鐘任務完成
查看去重結果
最后將去重過后的數據再次導入數據集,可以看到保留下來的圖片相似程度都比較低
ModelArts數據處理相關博客:
1. 數據處理簡介:https://bbs.huaweicloud.com/blogs/193413
2. 數據增強:https://bbs.huaweicloud.com/blogs/189148? 使用數據增強,解決數據不足和數據集不均衡的情況
3. 數據生成域遷移:https://bbs.huaweicloud.com/blogs/193405? 數據風格變換:ModelArts的數據域遷移功能
4. 數據校驗:https://bbs.huaweicloud.com/blogs/193412? ?數據校驗--給你的數據做個體檢吧
5. 數據去重:https://bbs.huaweicloud.com/blogs/193420? 數據去重---ModelArts在數據處理上的應用技巧-免費,歡迎大家體驗
6. 數據清洗:https://bbs.huaweicloud.com/blogs/193421? 數據清洗---ModelArts在數據處理上的應用技巧-免費,歡迎大家體驗
7. 難例篩選:https://bbs.huaweicloud.com/blogs/193422? 如何加速AI模型迭代:Modelarts的難例篩選功能
AI開發平臺ModelArts
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。