深度學習圖像識別:核心技術與案例實戰》 ——3.4.3 數據清洗與整理

      網友投稿 1312 2022-05-29

      3.4.3? 數據清洗與整理

      數據在采集完之后,往往包含著噪聲、缺失數據、不規則數據等各種問題,因此需要對其進行清洗和整理工作,主要包括以下內容。

      1.數據規范化管理

      規范化管理后的數據,才有可能成為一個標準的數據集,其中數據命名的統一是第一步。通常爬取和采集回來的數據沒有統一、連續的命名,因此需要制定統一的格式,命名通常不要含有中文字符和不合法字符等,在后續使用過程中不能對數據集進行重命名,否則會造成數據無法回溯的問題,而導致數據丟失。

      另外對于圖像等數據,還需要統一格式,例如把一批圖片數據統一為JPG格式,防止在某些平臺或批量腳本處理中不能正常處理。

      2.數據整理分類

      在采集數據的時候會有不同場景,不同風格下的數據,這些不同來源的數據需要分開儲存,不能混在一起,因為在訓練的時候,不同數據集的比例會對訓練模型的結果產生很大的影響。對于同一個任務卻不同來源的數據,比如室內、室外采集的人像數據,最好分文件夾存放。

      數據集包括訓練集和測試集,平時使用時數據集、訓練集、測試集需要以3個文件夾分別存儲,方便進行個性化的打包與傳播。

      3.數據去噪

      采集數據的時候通常無法嚴格控制來源,比如我們常用爬蟲來爬取數據,可能采集到的數據會存在很多噪聲。例如,用搜索引擎采集貓的圖片,采集到的數據可能會存在非貓的圖片,這時候就需要人工或者使用相關的檢測算法來去除不符合要求的圖片。數據的去噪一般對數據的標注工作會有很大的幫助,能提高標注的效率。

      4.數據去重

      《深度學習之圖像識別:核心技術與案例實戰》 ——3.4.3 數據清洗與整理

      采集到重復的數據是經常遇到的問題,比如在各大搜索引擎爬取同一類圖片就會有重復數據,還有依靠視頻切分成圖片來獲取圖片的方法,數據重復性會更嚴重。大量的重復數據會對訓練結果產生影響甚至造成模型過擬合,因此需要依據不同的任務采用不同的數據去重方案。對于圖像任務來說,最簡單的有逐像素比較去掉完全相同的圖片,或者利用各種圖像相似度算法去除相似圖片。

      5.數據存儲與備份

      在所有數據整理完之后,一定要及時完成數據存儲與備份。備份應該遵循一式多份且多個地方存儲,一般是本機、服務器、移動硬盤等地方,定時更新,降低數據丟失的可能性。數據無價,希望讀者能夠重視數據備份問題。

      圖像識別 圖像識別服務 Image 圖像識別服務

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:數據庫入門之RDS選擇原則
      下一篇:(openEuler21.03-x86)docker安裝開源Spug輕量級自動化運維平臺
      相關文章
      亚洲国产精品专区| 成人亚洲综合天堂| 亚洲一本大道无码av天堂| 亚洲欧洲av综合色无码| 亚洲乱码一区av春药高潮| 亚洲网红精品大秀在线观看| 91久久亚洲国产成人精品性色| 亚洲va在线va天堂va不卡下载 | 亚洲色欲久久久久综合网| 国产精品亚洲专区无码WEB| 亚洲丁香婷婷综合久久| 亚洲AV无码国产精品永久一区| 亚洲精品中文字幕| 亚洲av无码成人精品区一本二本| 亚洲国产成人久久精品软件| 亚洲av色香蕉一区二区三区 | 国产av无码专区亚洲av毛片搜| 激情小说亚洲色图| 亚洲国产午夜福利在线播放| 亚洲国产精品一区二区九九| 亚洲伊人成无码综合网| 亚洲乱码国产一区三区| 久久伊人久久亚洲综合| 日韩精品一区二区亚洲AV观看| 亚洲视频欧洲视频| 91嫩草亚洲精品| 亚洲永久网址在线观看| 亚洲国产成人久久精品软件| 亚洲国产精品狼友中文久久久| 亚洲伊人成无码综合网 | 中文字幕精品三区无码亚洲| 亚洲精品国产高清在线观看| 婷婷国产偷v国产偷v亚洲| 亚洲精品专区在线观看| 国产性爱在线观看亚洲黄色一级片| 亚洲乱码无码永久不卡在线| 亚洲国产一区二区三区青草影视 | 亚洲成片观看四虎永久| 国产亚洲av人片在线观看| 亚洲Av永久无码精品三区在线| 亚洲高清无在码在线电影不卡|