深度學(xué)習(xí)圖像識(shí)別核心技術(shù)與案例實(shí)戰(zhàn)》—3.4.3 數(shù)據(jù)清洗與整理

      網(wǎng)友投稿 932 2022-05-29

      3.4.3? 數(shù)據(jù)清洗與整理

      《深度學(xué)習(xí)之圖像識(shí)別核心技術(shù)與案例實(shí)戰(zhàn)》—3.4.3 數(shù)據(jù)清洗與整理

      數(shù)據(jù)在采集完之后,往往包含著噪聲、缺失數(shù)據(jù)、不規(guī)則數(shù)據(jù)等各種問題,因此需要對(duì)其進(jìn)行清洗和整理工作,主要包括以下內(nèi)容。

      1.?dāng)?shù)據(jù)規(guī)范化管理

      規(guī)范化管理后的數(shù)據(jù),才有可能成為一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)集,其中數(shù)據(jù)命名的統(tǒng)一是第一步。通常爬取和采集回來的數(shù)據(jù)沒有統(tǒng)一、連續(xù)的命名,因此需要制定統(tǒng)一的格式,命名通常不要含有中文字符和不合法字符等,在后續(xù)使用過程中不能對(duì)數(shù)據(jù)集進(jìn)行重命名,否則會(huì)造成數(shù)據(jù)無法回溯的問題,而導(dǎo)致數(shù)據(jù)丟失。

      另外對(duì)于圖像等數(shù)據(jù),還需要統(tǒng)一格式,例如把一批圖片數(shù)據(jù)統(tǒng)一為JPG格式,防止在某些平臺(tái)或批量腳本處理中不能正常處理。

      2.?dāng)?shù)據(jù)整理分類

      在采集數(shù)據(jù)的時(shí)候會(huì)有不同場(chǎng)景,不同風(fēng)格下的數(shù)據(jù),這些不同來源的數(shù)據(jù)需要分開儲(chǔ)存,不能混在一起,因?yàn)樵谟?xùn)練的時(shí)候,不同數(shù)據(jù)集的比例會(huì)對(duì)訓(xùn)練模型的結(jié)果產(chǎn)生很大的影響。對(duì)于同一個(gè)任務(wù)卻不同來源的數(shù)據(jù),比如室內(nèi)、室外采集的人像數(shù)據(jù),最好分文件夾存放。

      數(shù)據(jù)集包括訓(xùn)練集和測(cè)試集,平時(shí)使用時(shí)數(shù)據(jù)集、訓(xùn)練集、測(cè)試集需要以3個(gè)文件夾分別存儲(chǔ),方便進(jìn)行個(gè)性化的打包與傳播。

      3.?dāng)?shù)據(jù)去噪

      采集數(shù)據(jù)的時(shí)候通常無法嚴(yán)格控制來源,比如我們常用爬蟲來爬取數(shù)據(jù),可能采集到的數(shù)據(jù)會(huì)存在很多噪聲。例如,用搜索引擎采集貓的圖片,采集到的數(shù)據(jù)可能會(huì)存在非貓的圖片,這時(shí)候就需要人工或者使用相關(guān)的檢測(cè)算法來去除不符合要求的圖片。數(shù)據(jù)的去噪一般對(duì)數(shù)據(jù)的標(biāo)注工作會(huì)有很大的幫助,能提高標(biāo)注的效率。

      4.?dāng)?shù)據(jù)去重

      采集到重復(fù)的數(shù)據(jù)是經(jīng)常遇到的問題,比如在各大搜索引擎爬取同一類圖片就會(huì)有重復(fù)數(shù)據(jù),還有依靠視頻切分成圖片來獲取圖片的方法,數(shù)據(jù)重復(fù)性會(huì)更嚴(yán)重。大量的重復(fù)數(shù)據(jù)會(huì)對(duì)訓(xùn)練結(jié)果產(chǎn)生影響甚至造成模型過擬合,因此需要依據(jù)不同的任務(wù)采用不同的數(shù)據(jù)去重方案。對(duì)于圖像任務(wù)來說,最簡(jiǎn)單的有逐像素比較去掉完全相同的圖片,或者利用各種圖像相似度算法去除相似圖片。

      5.?dāng)?shù)據(jù)存儲(chǔ)與備份

      在所有數(shù)據(jù)整理完之后,一定要及時(shí)完成數(shù)據(jù)存儲(chǔ)與備份。備份應(yīng)該遵循一式多份且多個(gè)地方存儲(chǔ),一般是本機(jī)、服務(wù)器、移動(dòng)硬盤等地方,定時(shí)更新,降低數(shù)據(jù)丟失的可能性。數(shù)據(jù)無價(jià),希望讀者能夠重視數(shù)據(jù)備份問題。

      圖像處理 深度學(xué)習(xí)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:面向?qū)ο?抽象類和抽象方法及練習(xí)
      下一篇:數(shù)據(jù)庫入門之RDS選擇原則
      相關(guān)文章
      亚洲春黄在线观看| 久久精品国产亚洲AV无码娇色 | 国产亚洲人成无码网在线观看| 国产成人综合久久精品亚洲| 亚洲综合av一区二区三区不卡| 亚洲自国产拍揄拍| 亚洲一线产区二线产区精华| 亚洲最大中文字幕| 亚洲国产成人久久三区| 亚洲综合激情视频| 亚洲欧洲精品一区二区三区| 亚洲精品国产肉丝袜久久| 亚洲黄色免费电影| 亚洲成在人线电影天堂色| 亚洲成aⅴ人在线观看| 亚洲国产成人久久综合一区| 亚洲成a人片在线看| 久久乐国产综合亚洲精品| 狠狠色伊人亚洲综合网站色| 亚洲熟妇AV日韩熟妇在线| 亚洲成AV人影片在线观看| 亚洲av乱码中文一区二区三区| 国产亚洲精品免费| 久久久久亚洲av成人无码电影 | 亚洲一区免费观看| 亚洲另类自拍丝袜第1页| 精品久久久久久亚洲精品| 亚洲一久久久久久久久| 亚洲精品中文字幕| 国产亚洲日韩在线a不卡| 亚洲中文字幕伊人久久无码| 亚洲开心婷婷中文字幕| 亚洲AV无码成人精品区蜜桃| 久久99亚洲网美利坚合众国| 亚洲精品午夜久久久伊人| 亚洲香蕉久久一区二区| 亚洲国产精品自在自线观看| 亚洲国产成人久久综合区| 亚洲色无码专区在线观看| 亚洲人成在线观看| 亚洲av乱码一区二区三区香蕉 |