《深度學習之圖像識別:核心技術與案例實戰》 ——3.4.3 數據清洗與整理
3.4.3? 數據清洗與整理
數據在采集完之后,往往包含著噪聲、缺失數據、不規則數據等各種問題,因此需要對其進行清洗和整理工作,主要包括以下內容。
1.數據規范化管理
規范化管理后的數據,才有可能成為一個標準的數據集,其中數據命名的統一是第一步。通常爬取和采集回來的數據沒有統一、連續的命名,因此需要制定統一的格式,命名通常不要含有中文字符和不合法字符等,在后續使用過程中不能對數據集進行重命名,否則會造成數據無法回溯的問題,而導致數據丟失。
另外對于圖像等數據,還需要統一格式,例如把一批圖片數據統一為JPG格式,防止在某些平臺或批量腳本處理中不能正常處理。
2.數據整理分類
在采集數據的時候會有不同場景,不同風格下的數據,這些不同來源的數據需要分開儲存,不能混在一起,因為在訓練的時候,不同數據集的比例會對訓練模型的結果產生很大的影響。對于同一個任務卻不同來源的數據,比如室內、室外采集的人像數據,最好分文件夾存放。
數據集包括訓練集和測試集,平時使用時數據集、訓練集、測試集需要以3個文件夾分別存儲,方便進行個性化的打包與傳播。
3.數據去噪
采集數據的時候通常無法嚴格控制來源,比如我們常用爬蟲來爬取數據,可能采集到的數據會存在很多噪聲。例如,用搜索引擎采集貓的圖片,采集到的數據可能會存在非貓的圖片,這時候就需要人工或者使用相關的檢測算法來去除不符合要求的圖片。數據的去噪一般對數據的標注工作會有很大的幫助,能提高標注的效率。
4.數據去重
采集到重復的數據是經常遇到的問題,比如在各大搜索引擎爬取同一類圖片就會有重復數據,還有依靠視頻切分成圖片來獲取圖片的方法,數據重復性會更嚴重。大量的重復數據會對訓練結果產生影響甚至造成模型過擬合,因此需要依據不同的任務采用不同的數據去重方案。對于圖像任務來說,最簡單的有逐像素比較去掉完全相同的圖片,或者利用各種圖像相似度算法去除相似圖片。
5.數據存儲與備份
在所有數據整理完之后,一定要及時完成數據存儲與備份。備份應該遵循一式多份且多個地方存儲,一般是本機、服務器、移動硬盤等地方,定時更新,降低數據丟失的可能性。數據無價,希望讀者能夠重視數據備份問題。
圖像識別 圖像識別服務 Image 圖像識別服務
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。