虛擬存儲(chǔ)涉及到的相關(guān)基礎(chǔ)知識(shí)總結(jié) 1
1102
2025-03-31
深度神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)和語義分割領(lǐng)域取得了巨大成功,激勵(lì)我們進(jìn)一步探索其在各種計(jì)算機(jī)視覺任務(wù)中的全部能力。然而,訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)通常需要大量標(biāo)記數(shù)據(jù),網(wǎng)絡(luò)才能學(xué)習(xí)到視覺理解任務(wù)所需要的特征表示。但是許多實(shí)際場(chǎng)景中,只有有限數(shù)量的標(biāo)記數(shù)據(jù)可用于訓(xùn)練網(wǎng)絡(luò),這極大地限制了深度神經(jīng)網(wǎng)絡(luò)的適用性。因此,越來越多的研究人員開始采用無監(jiān)督的方式學(xué)習(xí)深度特征表示,以解決標(biāo)簽數(shù)據(jù)不足的新興視覺理解任務(wù)。
目前最具有代表性的方法是自編碼器(Auto-Encoders)和生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Nets)。自編碼器通過訓(xùn)練自編碼網(wǎng)絡(luò)來輸出具有足夠信息的特征表示,該表示能夠被對(duì)應(yīng)的解碼器重構(gòu)成輸入圖像。我們將此類自編碼器及其變體都?xì)w為自編碼數(shù)據(jù)(Auto-Encoding Data,AED)模式。如圖 1(a)所示。而 GAN 以一種無監(jiān)督的方式學(xué)習(xí)特征表示,通過從輸入噪聲中生成圖像,對(duì)抗訓(xùn)練生成器和判別器。生成器的輸入噪聲可以視為輸出的特征表示,由于其包含生成對(duì)應(yīng)圖像的必要信息。還有一種新的方法,結(jié)合了 AED 和 GAN 的優(yōu)勢(shì):為了獲得每個(gè)圖像的“噪聲”特征表示,可以用生成器作為解碼器來訓(xùn)練編碼器,形成自動(dòng)編碼器體系結(jié)構(gòu)。這樣,在給定輸入圖像的情況下,編碼器可以直接輸出其噪聲表示,通過生成器生成原始圖像。
相反,我們提出通過自動(dòng)編碼轉(zhuǎn)換(AET)而不是數(shù)據(jù)本身來學(xué)習(xí)無監(jiān)督的特征表示。通過對(duì)某些圖像操作算子進(jìn)行采樣,對(duì)圖像進(jìn)行變換,我們訓(xùn)練自編碼器能從學(xué)習(xí)到的特征表示中直接重構(gòu)原始圖像和變換圖像的操作算子。我們認(rèn)為只要經(jīng)過訓(xùn)練的特征具有足夠的信息量,對(duì)圖像的視覺結(jié)構(gòu)進(jìn)行了良好的編碼。我們就可以從特征中解碼出變換。與圖 1 中傳統(tǒng)的 AED 相比,AET 關(guān)注探索特征表示在不同圖像變換下的動(dòng)態(tài)機(jī)制,不僅揭示了靜態(tài)的視覺結(jié)構(gòu),但體現(xiàn)了他們?nèi)绾坞S不同的變換方式而變化。除此之外,對(duì)于 AET 框架中圖像變換的形式也不受限制,因此我們探索了多種變換,從簡(jiǎn)單的圖像變形到其他任何參數(shù)和非參數(shù)的變換。
圖 1:AED 與 AET 示意圖。AET 嘗試在輸出端預(yù)測(cè)輸入的變換,而 AED 在輸出端預(yù)測(cè)輸入的數(shù)據(jù)。AET 中,編碼網(wǎng)絡(luò) E 提取出含有視覺結(jié)構(gòu)豐富信息的特征,以解碼得到輸入的變換。
AET 詳解
AET 結(jié)構(gòu)
假設(shè)我們?cè)诜植鸡又胁蓸右粋€(gè)變換 t,例如圖像變形,投影變換,或 GAN 引導(dǎo)的變換。將其應(yīng)用于從分布 X 中采樣得到的一張圖像 x,得到 x 的變換版本 t(x)。
我們的目標(biāo)是學(xué)習(xí)編碼器 E:x→E(x),將給定樣本 x 編碼為特征表示 E(x)。同時(shí),我們學(xué)習(xí)解碼器 D:[E(x), E(t(x))]→t’,通過將原始圖像和經(jīng)過變換的圖像的編碼特征解碼,得到輸入變換的預(yù)測(cè)值 t’。由于對(duì)輸入變換的預(yù)測(cè)是通過解碼特征得到的,而不是原始圖像和變換圖像,它可以驅(qū)使模型提取出高質(zhì)量的特征作為圖像的表示。
自動(dòng)編碼變換(AET)的學(xué)習(xí)問題可以簡(jiǎn)化為聯(lián)合訓(xùn)練特征編碼 E 和轉(zhuǎn)換網(wǎng)絡(luò)解碼器 D。我們選擇一個(gè)損失函數(shù)來量化變換 t 和預(yù)測(cè)值 t’之間的誤差。AET 可以通過最小化該損失函數(shù)求解:
與訓(xùn)練其他深度神經(jīng)網(wǎng)絡(luò)類似,E 和 D 的網(wǎng)絡(luò)參數(shù)通過反向傳播損失函數(shù) L 的梯度,在 mini-batch 上聯(lián)合更新。
AET 家族
許多種類的變換方式都可以輕易嵌入 AET 形式中。這里我們討論三類變換:參數(shù)化的變換、GAN 引導(dǎo)的變換 和 非參數(shù)化的變換,來實(shí)例化 AET 模型。
假設(shè)我們有一簇變換:
其參數(shù)為θ。這相當(dāng)于定義了參數(shù)化變換的分布,其中每個(gè)變換都可由其參數(shù)表示,而輸入變換和預(yù)測(cè)變換之間的損失函數(shù)可以通過其參數(shù)的差得到:
例如放射變換和投影變換,可以表示為圖像進(jìn)行變換前后的同質(zhì)坐標(biāo)系之間的參數(shù)化矩陣:
該矩陣捕捉了由給定變換引起的幾何結(jié)構(gòu)變化,因此可以直接定義損失函數(shù):
來對(duì)目標(biāo)和估測(cè)變換之間的差異進(jìn)行建模。
除了放射變換、投影變換這類幾何變換,也可以選擇其他形式的變換對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)例化。比如 GAN 生成器,將輸入變換到真實(shí)圖像的流形上。假設(shè)生成器 G(x,z),與采樣隨機(jī)噪聲 z 聯(lián)合學(xué)習(xí),可以對(duì)給定圖片 x 的變換進(jìn)行參數(shù)化。由此可以定義一個(gè) GAN 引導(dǎo)的變換:
變換參數(shù)為 z。而損失函數(shù)可以通過對(duì)比局部生成器的噪聲參數(shù)得到:
與傳統(tǒng)的改變圖像的低層級(jí)表面和幾何結(jié)構(gòu)信息的變換相比,GAN 引導(dǎo)的變換可以改變圖像的高級(jí)語義。這也有助于 AET 學(xué)習(xí)到更具有表現(xiàn)力的特征表示。
當(dāng)某個(gè)變換 t 很難參數(shù)化時(shí),我們?nèi)匀豢梢酝ㄟ^衡量隨機(jī)采樣圖像在變換前后的平均誤差來定義損失函數(shù):
對(duì)于輸入的非參數(shù)變換 t,我們也需要解碼網(wǎng)絡(luò)輸出對(duì)變換的預(yù)測(cè)值 t‘。這一步可以通過選擇一個(gè)參數(shù)化的變換 tθ作為 t‘,作為 t 的估測(cè)值。盡管非參數(shù)的變換 t 不屬于參數(shù)化變換的空間,但是這樣的近似已經(jīng)足夠用于無監(jiān)督學(xué)習(xí),因?yàn)槲覀兊淖罱K目標(biāo)并不是獲取對(duì)輸入變換的精準(zhǔn)估計(jì),而是學(xué)習(xí)到能夠在參數(shù)化變換空間中給出最佳估計(jì)的好的特征表示。
我們發(fā)現(xiàn)多種變換都可以用于訓(xùn)練 AET,但是在本文中我們主要關(guān)注參數(shù)化變換,因?yàn)樗麄儾恍枰?xùn)練額外的模型(GAN 引導(dǎo)的變換),也不需要選擇附加的變換對(duì)非參數(shù)形式進(jìn)行近似(非參數(shù)變換)。這樣在實(shí)驗(yàn)中可以和其他非監(jiān)督方法進(jìn)行直接明了的對(duì)比。
實(shí)? ?驗(yàn)
在這一部分,我們?cè)?CIFAR-10,ImageNet 和 Places 數(shù)據(jù)庫上測(cè)試所提出的 AET 模型。無監(jiān)督學(xué)習(xí)方法通常根據(jù)使用學(xué)習(xí)到的特征的分類表現(xiàn)對(duì)其進(jìn)行評(píng)價(jià)。
CIFAR-10 實(shí)驗(yàn)
我們首先在 CIFAR-10 數(shù)據(jù)庫上對(duì) AET 模型進(jìn)行評(píng)價(jià)。我們采用了兩個(gè)不同的變換:放射變換(affine)和投影變換(projective)來訓(xùn)練 AET,分別將訓(xùn)練得到的模型命名為 AET-affine 和 AET-project。
我們采用 NIN(Network-In-Network)結(jié)構(gòu)。如圖 2 上半部分所示,NIN 由 4 個(gè)卷積塊組成,每個(gè)包含 3 個(gè)卷積層。AET 有 2 個(gè) NIN 分支,分別將原始圖像和變形圖像作為輸入。兩個(gè)分支第四個(gè)卷積塊的輸出進(jìn)行相連,并平均池化成一個(gè) 384-d 的特征矢量。在最后附加一個(gè)全連接層對(duì)輸入的變換進(jìn)行預(yù)測(cè)。兩個(gè)分支共享網(wǎng)絡(luò)權(quán)重,作為編碼網(wǎng)絡(luò),對(duì)輸入圖像生成特征表示。(訓(xùn)練細(xì)節(jié)、以及放射變換和投影變換的具體參數(shù)請(qǐng)參考論文原文。)
圖 2:在 CIFAR-10 數(shù)據(jù)集上訓(xùn)練和衡量的 AET 模型的網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
為了評(píng)價(jià)無監(jiān)督模型學(xué)習(xí)到特征的質(zhì)量,一般利用學(xué)習(xí)到的特征訓(xùn)練分類器。根據(jù)現(xiàn)有評(píng)價(jià)準(zhǔn)則,我們?cè)诘诙€(gè)卷積塊上建立一個(gè)分類器,如圖 2 底部所示,將前兩個(gè)卷積塊固定,并利用標(biāo)注樣本在其上訓(xùn)練分類器。我們通過使用 AET 特征訓(xùn)練基于模型的和無模型的分類器,對(duì)分類結(jié)果進(jìn)行評(píng)測(cè)。
表 1:CIFAR-10 數(shù)據(jù)庫上無監(jiān)督特征學(xué)習(xí)方法的對(duì)比。
表 1 給出了 CIFAR-10 數(shù)據(jù)集 AET 模型和其它全監(jiān)督以及無監(jiān)督方法的對(duì)比。從表中可以看到,無監(jiān)督 AET 模型 + 卷積分類器幾乎達(dá)到了其對(duì)應(yīng)的全監(jiān)督 NIN 的錯(cuò)誤率(7.82% vs. 7.2%)。AET 也超過了其他無監(jiān)督方法的表現(xiàn),體現(xiàn)了 AET 能夠在無監(jiān)督網(wǎng)絡(luò)的訓(xùn)練中更有效地探索圖像變換的信息。由于 RotNet 和 AET 采用的是同樣的網(wǎng)絡(luò)和分類器,我們將 RotNet 作為比較基線。從結(jié)果中可以看出,利用 AET 學(xué)到的特征訓(xùn)練的全連接(FC)和卷積分類器的分類結(jié)果都完勝 RotNet。
表 2:RotNet 與 AET 在 CIFAR-10 數(shù)據(jù)集的效果對(duì)比。
圖 3:不同模型的 KNN 誤差率隨近鄰數(shù)量 K 的變化曲線圖。
圖 3 中,我們比較了 KNN 近鄰數(shù)量 K 對(duì)結(jié)果的影響。AET-project 依然取得了最好的表現(xiàn)。KNN 分類器的結(jié)果體現(xiàn)了利用 AET 模型學(xué)習(xí)到的無監(jiān)督特征在無類標(biāo)數(shù)據(jù)的情況下訓(xùn)練分類器的優(yōu)勢(shì)。
ImageNet 實(shí)驗(yàn)
我們進(jìn)一步在 ImageNet 數(shù)據(jù)集上驗(yàn)證 AET 的效果。我們使用 AlexNet 作為骨干網(wǎng)絡(luò)來學(xué)習(xí)無監(jiān)督特征,采用投影變換作為圖像變換實(shí)例。
我們采用兩個(gè) AlexNet 網(wǎng)絡(luò)分支,共享權(quán)重,分別采用原始圖像和變換圖像作為網(wǎng)絡(luò)輸入,訓(xùn)練 AET-project 模型。兩個(gè)分支的倒數(shù)第二個(gè)全卷積層的特征連接起來,經(jīng)過輸出層,得到 8 個(gè)投影變換的參數(shù)(訓(xùn)練細(xì)節(jié)請(qǐng)參考論文原文)。
表 3:ImageNet 數(shù)據(jù)集非線性層的 Top-1 準(zhǔn)確率。
我們采用了兩種設(shè)置:Conv4 和 Conv5。它們分別表示在無監(jiān)督訓(xùn)練后,將 AlexNet 從底層的卷積層到 Conv4、或到 Conv5 的部分固定,然后利用標(biāo)注數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)的剩余部分。從結(jié)果中可以看出,兩種設(shè)置下 AET 模型的表現(xiàn)都優(yōu)于其他無監(jiān)督模型。
表 4:ImageNet 數(shù)據(jù)集線性層的 Top-1 準(zhǔn)確率。
我們?cè)诓煌瑪?shù)量的卷積層上訓(xùn)練了一個(gè) 1000 個(gè)通道的線性分類器進(jìn)行測(cè)試,表 4 給出了實(shí)驗(yàn)結(jié)果。從表中可以看出 AET 學(xué)習(xí)到的特征在線性分類器上的表現(xiàn)也超越了其他無監(jiān)督方法。
Places 實(shí)驗(yàn)
我們?cè)?Places 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。如表 5 所示,我們?cè)u(píng)測(cè)了在 ImageNet 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練的無監(jiān)督模型,然后利用 Places 的標(biāo)注數(shù)據(jù)訓(xùn)練單層的邏輯回歸分類器。我們通過這個(gè)實(shí)驗(yàn)評(píng)估了無監(jiān)督特征從一個(gè)數(shù)據(jù)集到另一個(gè)的可擴(kuò)展性。我們的模型依然基于 AlexNet。我們也對(duì)比了利用 Places 數(shù)據(jù)集的標(biāo)注數(shù)據(jù)和 ImageNet 數(shù)據(jù)集標(biāo)注數(shù)據(jù)的全監(jiān)督模型。結(jié)果顯示 AET 模型的表現(xiàn)優(yōu)于其他無監(jiān)督模型。
表 5:Places 數(shù)據(jù)集線性層的 Top-1 準(zhǔn)確率
對(duì)預(yù)測(cè)變換的分析
盡管我們的最終目標(biāo)是學(xué)習(xí)到好的圖像特征表示,我們也研究了預(yù)測(cè)的變換的準(zhǔn)確度,以及它和監(jiān)督學(xué)習(xí)分類器性能的關(guān)系。
圖 4:錯(cuò)誤率(top-1 準(zhǔn)確率)vs. AET 損失在 CIFAR-10 和 ImageNet 數(shù)據(jù)集上隨訓(xùn)練 epoch 變化曲線圖。
如圖 4 所示,變換預(yù)測(cè)的損失(AET 模型訓(xùn)練最小化的損失)與分類誤差和 Top-1 準(zhǔn)確率都較為匹配。更好的變換預(yù)測(cè)準(zhǔn)確度代表著所學(xué)習(xí)到的特征能取得更好的分類結(jié)果。
圖 5:原始圖像(頂部),經(jīng)過變換的輸入圖像(中部),經(jīng)過 AET 模型預(yù)測(cè)變換的圖像(底部)。
在圖 5 中,我們也對(duì)比了原始圖像、變換圖像,以及 AET 模型預(yù)測(cè)變換的圖像。這些樣例體現(xiàn)了模型能很好地從編碼特征中解碼出變換,從而得到的無監(jiān)督表示能夠在分類實(shí)驗(yàn)中有較好的表現(xiàn)。
總? ?結(jié)
在這篇論文中,我們提出了一個(gè)與傳統(tǒng)的自動(dòng)編碼數(shù)據(jù)方法(AED)相對(duì)的自動(dòng)編碼變換方法(AET),用于無監(jiān)督訓(xùn)練神經(jīng)網(wǎng)絡(luò)。通過在網(wǎng)絡(luò)輸出端估測(cè)隨機(jī)采樣的變換,AET 驅(qū)使編碼器學(xué)習(xí)好的圖像表示,能夠包含關(guān)于原始圖像和變換圖像的視覺結(jié)構(gòu)信息。多種變換都可以融合到該框架下,實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的表現(xiàn)相對(duì)于其他方法有了顯著提高,大大縮短了與全監(jiān)督方法的差距。
論文原文:https://arxiv.org/pdf/1901.04596.pdf
EI 人工智能 AI
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。