基于深度學習行人重識別研究綜述 羅浩.ZJU

      網(wǎng)友投稿 1015 2022-05-30

      轉(zhuǎn)載自:https://zhuanlan.zhihu.com/p/31921944

      前言:行人重識別(Person Re-identification)也稱行人再識別,本文簡稱為ReID,是利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)。廣泛被認為是一個圖像檢索的子問題。給定一個監(jiān)控行人圖像,檢索跨設(shè)備下的該行人圖像。

      在監(jiān)控視頻中,由于相機分辨率和拍攝角度的緣故,通常無法得到質(zhì)量非常高的人臉圖片。當人臉識別失效的情況下,ReID就成為了一個非常重要的替代品技術(shù)。ReID有一個非常重要的特性就是跨攝像頭,所以學術(shù)論文里評價性能的時候,是要檢索出不同攝像頭下的相同行人圖片。ReID已經(jīng)在學術(shù)界研究多年,但直到最近幾年隨著深度學習的發(fā)展,才取得了非常巨大的突破。因此本文介紹一些近幾年基于深度學習的ReID工作,由于精力有限并不能涵蓋所有工作,只能介紹幾篇代表性的工作。按照個人的習慣,我把這些方法分為以下幾類:

      基于表征學習的ReID方法

      基于度量學習的ReID方法

      基于局部特征的ReID方法

      基于視頻序列的ReID方法

      基于GAN造圖的ReID方法

      目錄

      一、基于表征學習的ReID方法

      基于深度學習的行人重識別研究綜述 羅浩.ZJU

      二、基于度量學習的ReID方法

      三、基于局部特征的ReID方法

      四、基于視頻序列的ReID方法

      五、基于GAN造圖的ReID方法

      參考文獻

      一、基于表征學習的ReID方法

      基于表征學習(Representation learning)的方法是一類非常常用的行人重識別方法[1-4]。這主要得益于深度學習,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network, CNN)的快速發(fā)展。由于CNN可以自動從原始的圖像數(shù)據(jù)中根據(jù)任務(wù)需求自動提取出表征特征(Representation),所以有些研究者把行人重識別問題看做分類(Classification/Identification)問題或者驗證(Verification)問題:(1)分類問題是指利用行人的ID或者屬性等作為訓練標簽來訓練模型;(2)驗證問題是指輸入一對(兩張)行人圖片,讓網(wǎng)絡(luò)來學習這兩張圖片是否屬于同一個行人。

      論文[1]利用Classification/Identification loss和verification loss來訓練網(wǎng)絡(luò),其網(wǎng)絡(luò)示意圖如下圖所示。網(wǎng)絡(luò)輸入為若干對行人圖片,包括分類子網(wǎng)絡(luò)(Classification Subnet)和驗證子網(wǎng)絡(luò)(Verification Subnet)。分類子網(wǎng)絡(luò)對圖片進行ID預測,根據(jù)預測的ID來計算分類誤差損失。驗證子網(wǎng)絡(luò)融合兩張圖片的特征,判斷這兩張圖片是否屬于同一個行人,該子網(wǎng)絡(luò)實質(zhì)上等于一個二分類網(wǎng)絡(luò)。經(jīng)過足夠數(shù)據(jù)的訓練,再次輸入一張測試圖片,網(wǎng)絡(luò)將自動提取出一個特征,這個特征用于行人重識別任務(wù)。

      但是也有論文認為光靠行人的ID信息不足以學習出一個泛化能力足夠強的模型。在這些工作中,它們額外標注了行人圖片的屬性特征,例如性別、頭發(fā)、衣著等屬性。通過引入行人屬性標簽,模型不但要準確地預測出行人ID,還要預測出各項正確的行人屬性,這大大增加了模型的泛化能力,多數(shù)論文也顯示這種方法是有效的。下圖是其中一個示例[2],從圖中可以看出,網(wǎng)絡(luò)輸出的特征不僅用于預測行人的ID信息,還用于預測各項行人屬性。通過結(jié)合ID損失和屬性損失能夠提高網(wǎng)絡(luò)的泛化能力。

      如今依然有大量工作是基于表征學習,表征學習也成為了ReID領(lǐng)域的一個非常重要的baseline,并且表征學習的方法比較魯棒,訓練比較穩(wěn)定,結(jié)果也比較容易復現(xiàn)。但是個人的實際經(jīng)驗感覺表征學習容易在數(shù)據(jù)集的domain上過擬合,并且當訓練ID增加到一定程度的時候會顯得比較乏力。

      二、基于度量學習的ReID方法

      度量學習(Metric learning)是廣泛用于圖像檢索領(lǐng)域的一種方法。不同于表征學習,度量學習旨在通過網(wǎng)絡(luò)學習出兩張圖片的相似度。在行人重識別問題上,具體為同一行人的不同圖片相似度大于不同行人的不同圖片。最后網(wǎng)絡(luò)的損失函數(shù)使得相同行人圖片(正樣本對)的距離盡可能小,不同行人圖片(負樣本對)的距離盡可能大。常用的度量學習損失方法有對比損失(Contrastive loss)[5]、三元組損失(Triplet loss)[6-8]、 四元組損失(Quadruplet loss)[9]、難樣本采樣三元組損失(Triplet hard loss with batch hard mining, TriHard loss)[10]、邊界挖掘損失(Margin sample mining loss, MSML)[11]。首先,假如有兩張輸入圖片??和??,通過網(wǎng)絡(luò)的前饋我們可以得到它們歸一化后的特征向量??和??。我們定義這兩張圖片特征向量的歐式距離為:

      (1)對比損失(Contrastive loss)

      對比損失用于訓練孿生網(wǎng)絡(luò)(Siamese network),其結(jié)構(gòu)圖如上圖所示。孿生網(wǎng)絡(luò)的輸入為一對(兩張)圖片??和??,這兩張圖片可以為同一行人,也可以為不同行人。每一對訓練圖片都有一個標簽??,其中??表示兩張圖片屬于同一個行人(正樣本對),反之??表示它們屬于不同行人(負樣本對)。之后,對比損失函數(shù)寫作:

      其中??表示??,??是根據(jù)實際需求設(shè)計的閾值參數(shù)。為了最小化損失函數(shù),當網(wǎng)絡(luò)輸入一對正樣本對,??會逐漸變小,即相同ID的行人圖片會逐漸在特征空間形成聚類。反之,當網(wǎng)絡(luò)輸入一對負樣本對時,??會逐漸變大直到超過設(shè)定的??。通過最小化??,最后可以使得正樣本對之間的距離逐漸變小,負樣本對之間的距離逐漸變大,從而滿足行人重識別任務(wù)的需要。

      (2)三元組損失(Triplet loss)

      三元組損失是一種被廣泛應(yīng)用的度量學習損失,之后的大量度量學習方法也是基于三元組損失演變而來。顧名思義,三元組損失需要三張輸入圖片。和對比損失不同,一個輸入的三元組(Triplet)包括一對正樣本對和一對負樣本對。三張圖片分別命名為固定圖片(Anchor)??,正樣本圖片(Positive)??和負樣本圖片(Negative)??。圖片??和圖片??為一對正樣本對,圖片??和圖片??為一對負樣本對。則三元組損失表示為:

      如下圖所示,三元組可以拉近正樣本對之間的距離,推開負樣本對之間的距離,最后使得相同ID的行人圖片在特征空間里形成聚類,達到行人重識別的目的。

      論文[8]認為原版的Triplet loss只考慮正負樣本對之間的相對距離,而并沒有考慮正樣本對之間的絕對距離,為此提出改進三元組損失(Improved triplet loss):

      公式添加??項,保證網(wǎng)絡(luò)不僅能夠在特征空間把正負樣本推開,也能保證正樣本對之間的距離很近。

      (3) 四元組損失(Quadruplet loss)

      四元組損失是三元組損失的另一個改進版本。顧名思義,四元組(Quadruplet)需要四張輸入圖片,和三元組不同的是多了一張負樣本圖片。即四張圖片為固定圖片(Anchor)??,正樣本圖片(Positive)??,負樣本圖片1(Negative1)??和負樣本圖片2(Negative2)??。其中??和?是兩張不同行人ID的圖片,其結(jié)構(gòu)如上圖所示。則四元組損失表示為:

      其中??和??是手動設(shè)置的正常數(shù),通常設(shè)置??小于??,前一項稱為強推動,后一項稱為弱推動。相比于三元組損失只考慮正負樣本間的相對距離,四元組添加的第二項不共享ID,所以考慮的是正負樣本間的絕對距離。因此,四元組損失通常能讓模型學習到更好的表征。

      (4)難樣本采樣三元組損失(Triplet loss with batch hard mining, TriHard loss)

      難樣采樣三元組損失(本文之后用TriHard損失表示)是三元組損失的改進版。傳統(tǒng)的三元組隨機從訓練數(shù)據(jù)中抽樣三張圖片,這樣的做法雖然比較簡單,但是抽樣出來的大部分都是簡單易區(qū)分的樣本對。如果大量訓練的樣本對都是簡單的樣本對,那么這是不利于網(wǎng)絡(luò)學習到更好的表征。大量論文發(fā)現(xiàn)用更難的樣本去訓練網(wǎng)絡(luò)能夠提高網(wǎng)絡(luò)的泛化能力,而采樣難樣本對的方法很多。論文[10]提出了一種基于訓練批量(Batch)的在線難樣本采樣方法——TriHard Loss。

      TriHard損失的核心思想是:對于每一個訓練batch,隨機挑選??個ID的行人,每個行人隨機挑選??張不同的圖片,即一個batch含有??張圖片。之后對于batch中的每一張圖片??,我們可以挑選一個最難的正樣本和一個最難的負樣本和??組成一個三元組。

      首先我們定義和??為相同ID的圖片集為??,剩下不同ID的圖片圖片集為??,則TriHard損失表示為:

      其中??是人為設(shè)定的閾值參數(shù)。TriHard損失會計算??和batch中的每一張圖片在特征空間的歐式距離,然后選出與??距離最遠(最不像)的正樣本??和距離最近(最像)的負樣本??來計算三元組損失。通常TriHard損失效果比傳統(tǒng)的三元組損失要好。

      (5)邊界挖掘損失(Margin sample mining loss, MSML)

      邊界樣本挖掘損失(MSML)是一種引入難樣本采樣思想的度量學習方法。三元組損失只考慮了正負樣本對之間的相對距離。為了引入正負樣本對之間的絕對距離,四元組損失加入一張負樣本組成了四元組。四元組損失也定義為:

      假如我們忽視參數(shù)??和??的影響,我們可以用一種更加通用的形式表示四元組損失:

      其中??和??是一對負樣本對,??和??既可以是一對正樣本對也可以是一對負樣本對。之后把TriHard loss的難樣本挖掘思想引入進來,便可以得到:

      其中??均是batch中的圖片,??是batch中最不像的正樣本對,??是batch 中最像的負樣本對,??皆可以是正樣本對也可以是負樣本對。概括而言TriHard損失是針對batch中的每一張圖片都挑選了一個三元組,而MSML損失只挑選出最難的一個正樣本對和最難的一個負樣本對計算損失。所以MSML是比TriHard更難的一種難樣本采樣,此外??可以看作是正樣本對距離的上界,??可以看作是負樣本對的下界。MSML是為了把正負樣本對的邊界給推開,因此命名為邊界樣本挖掘損失。總的概括,MSML是同時兼顧相對距離和絕對距離并引入了難樣本采樣思想的度量學習方法。其演變思想如下圖:

      (6)各種loss的性能對比

      在論文[11]之中,對上面提到的主要損失函數(shù)在盡可能公平的實驗的條件下進行性能對比,實驗結(jié)果如下表所示。作為一個參考

      三、基于局部特征的ReID方法

      早期的ReID研究大家還主要關(guān)注點在全局的global feature上,就是用整圖得到一個特征向量進行圖像檢索。但是后來大家逐漸發(fā)現(xiàn)全局特征遇到了瓶頸,于是開始漸漸研究起局部的local feature。常用的提取局部特征的思路主要有圖像切塊、利用骨架關(guān)鍵點定位以及姿態(tài)矯正等等。

      (1)圖片切塊是一種很常見的提取局部特征方式[12]。如下圖所示,圖片被垂直等分為若干份,因為垂直切割更符合我們對人體識別的直觀感受,所以行人重識別領(lǐng)域很少用到水平切割。

      之后,被分割好的若干塊圖像塊按照順序送到一個長短時記憶網(wǎng)絡(luò)(Long short term memory network, LSTM),最后的特征融合了所有圖像塊的局部特征。但是這種缺點在于對圖像對齊的要求比較高,如果兩幅圖像沒有上下對齊,那么很可能出現(xiàn)頭和上身對比的現(xiàn)象,反而使得模型判斷錯誤。

      (3)CVPR2017的工作Spindle Net[14]也利用了14個人體關(guān)鍵點來提取局部特征。和論文[12]不同的是,Spindle Net并沒有用仿射變換來對齊局部圖像區(qū)域,而是直接利用這些關(guān)鍵點來摳出感興趣區(qū)域(Region of interest, ROI)。Spindle Net網(wǎng)絡(luò)如下圖所示,首先通過骨架關(guān)鍵點提取的網(wǎng)絡(luò)提取14個人體關(guān)鍵點,之后利用這些關(guān)鍵點提取7個人體結(jié)構(gòu)ROI。網(wǎng)絡(luò)中所有提取特征的CNN(橙色表示)參數(shù)都是共享的,這個CNN分成了線性的三個子網(wǎng)絡(luò)FEN-C1、FEN-C2、FEN-C3。對于輸入的一張行人圖片,有一個預訓練好的骨架關(guān)鍵點提取CNN(藍色表示)來獲得14個人體關(guān)鍵點,從而得到7個ROI區(qū)域,其中包括三個大區(qū)域(頭、上身、下身)和四個四肢小區(qū)域。這7個ROI區(qū)域和原始圖片進入同一個CNN網(wǎng)絡(luò)提取特征。原始圖片經(jīng)過完整的CNN得到一個全局特征。三個大區(qū)域經(jīng)過FEN-C2和FEN-C3子網(wǎng)絡(luò)得到三個局部特征。四個四肢區(qū)域經(jīng)過FEN-C3子網(wǎng)絡(luò)得到四個局部特征。之后這8個特征按照圖示的方式在不同的尺度進行聯(lián)結(jié),最終得到一個融合全局特征和多個尺度局部特征的行人重識別特征。

      (4)論文[15]提出了一種全局-局部對齊特征描述子(Global-Local-Alignment Descriptor, GLAD),來解決行人姿態(tài)變化的問題。與Spindle Net類似,GLAD利用提取的人體關(guān)鍵點把圖片分為頭部、上身和下身三個部分。之后將整圖和三個局部圖片一起輸入到一個參數(shù)共享CNN網(wǎng)絡(luò)中,最后提取的特征融合了全局和局部的特征。為了適應(yīng)不同分辨率大小的圖片輸入,網(wǎng)絡(luò)利用全局平均池化(Global average pooling, GAP)來提取各自的特征。和Spindle Net略微不同的是四個輸入圖片各自計算對應(yīng)的損失,而不是融合為一個特征計算一個總的損失。

      (5)以上所有的局部特征對齊方法都需要一個額外的骨架關(guān)鍵點或者姿態(tài)估計的模型。而訓練一個可以達到實用程度的模型需要收集足夠多的訓練數(shù)據(jù),這個代價是非常大的。為了解決以上問題,AlignedReID[16]提出基于SP距離的自動對齊模型,在不需要額外信息的情況下來自動對齊局部特征。而采用的方法就是動態(tài)對齊算法,或者也叫最短路徑距離。這個最短距離就是自動計算出的local distance。

      這個local distance可以和任何global distance的方法結(jié)合起來,論文[15]選擇以TriHard loss作為baseline實驗,最后整個網(wǎng)絡(luò)的結(jié)構(gòu)如下圖所示,具體細節(jié)可以去看原論文。

      四、基于視頻序列的ReID方法

      目前單幀的ReID研究還是主流,因為相對來說數(shù)據(jù)集比較小,哪怕一個單GPU的PC做一次實驗也不會花太長時間。但是通常單幀圖像的信息是有限的,因此有很多工作集中在利用視頻序列來進行行人重識別方法的研究[17-24]。基于視頻序列的方法最主要的不同點就是這類方法不僅考慮了圖像的內(nèi)容信息,還考慮了幀與幀之間的運動信息等。

      基于單幀圖像的方法主要思想是利用CNN來提取圖像的空間特征,而基于視頻序列的方法主要思想是利用CNN 來提取空間特征的同時利用遞歸循環(huán)網(wǎng)絡(luò)(Recurrent neural networks, RNN)來提取時序特征。上圖是非常典型的思路,網(wǎng)絡(luò)輸入為圖像序列。每張圖像都經(jīng)過一個共享的CNN提取出圖像空間內(nèi)容特征,之后這些特征向量被輸入到一個RNN網(wǎng)絡(luò)去提取最終的特征。最終的特征融合了單幀圖像的內(nèi)容特征和幀與幀之間的運動特征。而這個特征用于代替前面單幀方法的圖像特征來訓練網(wǎng)絡(luò)。

      AMOC的核心思想在于網(wǎng)絡(luò)除了要提取序列圖像的特征,還要提取運動光流的運動特征,其網(wǎng)絡(luò)結(jié)構(gòu)圖如下圖所示。AMOC擁有空間信息網(wǎng)絡(luò)(Spatial network, Spat Nets)和運動信息網(wǎng)絡(luò)兩個子網(wǎng)絡(luò)。圖像序列的每一幀圖像都被輸入到Spat Nets來提取圖像的全局內(nèi)容特征。而相鄰的兩幀將會送到Moti Nets來提取光流圖特征。之后空間特征和光流特征融合后輸入到一個RNN來提取時序特征。通過AMOC網(wǎng)絡(luò),每個圖像序列都能被提取出一個融合了內(nèi)容信息、運動信息的特征。網(wǎng)絡(luò)采用了分類損失和對比損失來訓練模型。融合了運動信息的序列圖像特征能夠提高行人重識別的準確度。

      論文[24]從另外一個角度展示了多幀序列彌補單幀信息不足的作用,目前大部分video based ReID方法還是不管三七二十一的把序列信息輸給網(wǎng)絡(luò),讓網(wǎng)絡(luò)去自己學有用的信息,并沒有直觀的去解釋為什么多幀信息有用。而論文[24]則很明確地指出當單幀圖像遇到遮擋等情況的時候,可以用多幀的其他信息來彌補,直接誘導網(wǎng)絡(luò)去對圖片進行一個質(zhì)量判斷,降低質(zhì)量差的幀的重要度。

      如上圖,文章認為在遮擋較嚴重的情況下,如果用一般的pooling會造成attention map變差,遮擋區(qū)域的特征會丟失很多。而利用論文的方法每幀進行一個質(zhì)量判斷,就可以著重考慮那些比較完整的幾幀,使得attention map比較完整。而關(guān)鍵的實現(xiàn)就是利用一個pose estimation的網(wǎng)絡(luò),論文叫做landmark detector。當landmark不完整的時候就證明存在遮擋,則圖片質(zhì)量就會變差。之后pose feature map和global feature map都同時輸入到網(wǎng)絡(luò),讓網(wǎng)絡(luò)對每幀進行一個權(quán)重判斷,給高質(zhì)量幀打上高權(quán)重,然后對feature map進行一個線性疊加。思路比較簡單但是還是比較讓人信服的。

      五、基于GAN造圖的ReID方法

      ReID有一個非常大的問題就是數(shù)據(jù)獲取困難,截止CVPR18 deadline截稿之前,最大的ReID數(shù)據(jù)集也就小幾千個ID,幾萬張圖片(序列假定只算一張)。因此在ICCV17 GAN造圖做ReID挖了第一個坑之后,就有大量GAN的工作涌現(xiàn),尤其是在CVPR18 deadline截稿之后arxiv出現(xiàn)了好幾篇很好的paper。

      論文[25]是第一篇用GAN做ReID的文章,發(fā)表在ICCV17會議,雖然論文比較簡單,但是作為挖坑鼻祖引出一系列很好的工作。如下圖,這篇論文生成的圖像質(zhì)量還不是很高,甚至可以用很慘來形容。另外一個問題就是由于圖像是隨機生成的,也就是說是沒有可以標注label可以用。為了解決這個問題,論文提出一個標簽平滑的方法。實際操作也很簡單,就是把label vector每一個元素的值都取一樣,滿足加起來為1。反正也看不出屬于哪個人,那就一碗水端平。生成的圖像作為訓練數(shù)據(jù)加入到訓練之中,由于當時的baseline還不像現(xiàn)在這么高,所以效果還挺明顯的,至少數(shù)據(jù)量多了過擬合能避免很多。

      論文[26]是上一篇論文的加強版,來自同一個課題組。前一篇的GAN造圖還是隨機的,在這一篇中變成了可以控制的生成圖。ReID有個問題就是不同的攝像頭存在著bias,這個bias可能來自光線、角度等各個因素。為了克服這個問題,論文使用GAN將一個攝像頭的圖片transfer到另外一個攝像頭。在GAN方面依然還是比較正常的應(yīng)用,和前作不同的是這篇論文生成的圖是可以控制,也就是說ID是明確的。于是標簽平滑也做了改進,公式如下:

      其中??是ID的數(shù)量。??是手動設(shè)置的平滑參數(shù),當??時就是正常的one-hot向量,不過由于是造的圖,所以希望label不要這么hard,因此加入了一個平滑參數(shù),實驗表明這樣做效果不錯。最終整體的網(wǎng)絡(luò)框架如下圖:

      除了攝像頭的bias,ReID還有個問題就是數(shù)據(jù)集存在bias,這個bias很大一部分原因就是環(huán)境造成的。為了克服這個bias,論文[27]使用GAN把一個數(shù)據(jù)集的行人遷移到另外一個數(shù)據(jù)集。為了實現(xiàn)這個遷移,GAN的loss稍微設(shè)計了一下,一個是前景的絕對誤差loss,一個是正常的判別器loss。判別器loss是用來判斷生成的圖屬于哪個域,前景的loss是為了保證行人前景盡可能逼真不變。這個前景mask使用PSPnet來得到的,效果如下圖。論文的另外一個貢獻就是提出了一個MSMT17數(shù)據(jù)集,是個挺大的數(shù)據(jù)集,希望能夠早日public出來。

      ReID的其中一個難點就是姿態(tài)的不同,為了克服這個問題論文[28]使用GAN造出了一系列標準的姿態(tài)圖片。論文總共提取了8個pose,這個8個pose基本涵蓋了各個角度。每一張圖片都生成這樣標準的8個pose,那么pose不同的問題就解決。最終用這些圖片的feature進行一個average pooling得到最終的feature,這個feature融合了各個pose的信息,很好地解決的pose bias問題。無論從生成圖還是從實驗的結(jié)果來看,這個工作都是很不錯的。這個工作把single query做成了multi query,但是你沒法反駁,因為所有的圖都是GAN生成的。除了生成這些圖需要額外的時間開銷以外,并沒有利用額外的數(shù)據(jù)信息。當然這個工作也需要一個預訓練的pose estimation網(wǎng)絡(luò)來進行pose提取。

      總的來說,GAN造圖都是為了從某個角度上解決ReID的困難,缺啥就讓GAN來補啥,不得不說GAN還真是一個強大的東西。

      后言:以上就是基于深度學習的行人重識別研究綜述,選取了部分代表性的論文,希望能夠幫助剛進入這個領(lǐng)域的人快速了解近幾年的工作。當然還有很多優(yōu)秀的工作沒有放進來,ICCV17的ReID文章就有十幾篇。這幾年加起來應(yīng)該有上百篇相關(guān)文章,包括一些無監(jiān)督、半監(jiān)督、cross-domain等工作都沒有提到,實在精力和能力有限。

      參考文獻

      [1] Mengyue Geng, Yaowei Wang, Tao Xiang, Yonghong Tian. Deep transfer learning for person reidentification[J]. arXiv preprint arXiv:1611.05244, 2016.

      [2] Yutian Lin, Liang Zheng, Zhedong Zheng, YuWu, Yi Yang. Improving person re-identification by attribute and identity learning[J]. arXiv preprint arXiv:1703.07220, 2017.

      [3] Liang Zheng, Yi Yang, Alexander G Hauptmann. Person re-identification: Past, present and future[J]. arXiv preprint arXiv:1610.02984, 2016.

      [4] Tetsu Matsukawa, Einoshin Suzuki. Person re-identification using cnn features learned from combination of attributes[C]//Pattern Recognition (ICPR), 2016 23rd International Conference on. IEEE, 2016:2428–2433.

      [5] Rahul Rama Varior, Mrinal Haloi, Gang Wang. Gated siamese convolutional neural network architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:791-808.

      [6] Florian Schroff, Dmitry Kalenichenko, James Philbin. Facenet: A unified embedding for face recognition and clustering[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:815-823.

      [7] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, Shuicheng Yan. End-to-end comparative attention networks for person re-identification[J]. IEEE Transactions on Image Processing, 2017.

      [8] De Cheng, Yihong Gong, Sanping Zhou, Jinjun Wang, Nanning Zheng. Person re-identification by multichannel parts-based cnn with improved triplet loss function[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1335-1344.

      [9] Weihua Chen, Xiaotang Chen, Jianguo Zhang, Kaiqi Huang. Beyond triplet loss: a deep quadruplet network for person re-identification[J]. arXiv preprint arXiv:1704.01719, 2017.

      [10] Alexander Hermans, Lucas Beyer, Bastian Leibe. In defense of the triplet loss for person reidentification[J]. arXiv preprint arXiv:1703.07737, 2017

      [11] Xiao Q, Luo H, Zhang C. Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification[J]. 2017.

      [12] Rahul Rama Varior, Bing Shuai, Jiwen Lu, Dong Xu, Gang Wang. A siamese long short-term memory architecture for human re-identification[C]//European Conference on Computer Vision. Springer, 2016:135–153.

      [13] Liang Zheng, Yujia Huang, Huchuan Lu, Yi Yang. Pose invariant embedding for deep person reidentification[J]. arXiv preprint arXiv:1701.07732, 2017.

      [14] Haiyu Zhao, Maoqing Tian, Shuyang Sun, Jing Shao, Junjie Yan, Shuai Yi, Xiaogang Wang, Xiaoou Tang. Spindle net: Person re-identification with human body region guided feature decomposition and fusion[C]. CVPR, 2017.

      [15] Longhui Wei, Shiliang Zhang, Hantao Yao, Wen Gao, Qi Tian. Glad: Global-local-alignment descriptor for pedestrian retrieval[J]. arXiv preprint arXiv:1709.04329, 2017.

      [16] Zhang, X., Luo, H., Fan, X., Xiang, W., Sun, Y., Xiao, Q., ... & Sun, J. (2017). AlignedReID: Surpassing Human-Level Performance in Person Re-Identification.?arXiv preprint arXiv:1711.08184.

      [17] Taiqing Wang, Shaogang Gong, Xiatian Zhu, Shengjin Wang. Person re-identification by discriminative selection in video ranking[J]. IEEE transactions on pattern analysis and machine intelligence, 2016.38(12):2501–2514.

      [18] Dongyu Zhang, Wenxi Wu, Hui Cheng, Ruimao Zhang, Zhenjiang Dong, Zhaoquan Cai. Image-to-video person re-identification with temporally memorized similarity learning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2017.

      [19] Jinjie You, Ancong Wu, Xiang Li, Wei-Shi Zheng. Top-push video-based person reidentification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:1345–1353.

      [20] Xiaolong Ma, Xiatian Zhu, Shaogang Gong, Xudong Xie, Jianming Hu, Kin-Man Lam, Yisheng Zhong. Person re-identification by unsupervised video matching[J]. Pattern Recognition, 2017. 65:197–210.

      [21] Niall McLaughlin, Jesus Martinez del Rincon, Paul Miller. Recurrent convolutional network for videobased person re-identification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:1325–1334.

      [22] Rui Zhao, Wanli Oyang, Xiaogang Wang. Person re-identification by saliency learning[J]. IEEE transactions on pattern analysis and machine intelligence, 2017. 39(2):356–370.

      [23] Hao Liu, Zequn Jie, Karlekar Jayashree, Meibin Qi, Jianguo Jiang, Shuicheng Yan, Jiashi Feng. Video based person re-identification with accumulative motion context[J]. arXiv preprint arXiv:1701.00193,2017.

      [24] Song G, Leng B, Liu Y, et al. Region-based Quality Estimation Network for Large-scale Person Re-identification[J]. arXiv preprint arXiv:1711.08766, 2017.

      [25] Zheng Z, Zheng L, Yang Y. Unlabeled samples generated by gan improve the person re-identification baseline in vitro[J]. arXiv preprint arXiv:1701.07717, 2017.

      [26] Zhong Z, Zheng L, Zheng Z, et al. Camera Style Adaptation for Person Re-identification[J]. arXiv preprint arXiv:1711.10295, 2017.

      [27] Wei L, Zhang S, Gao W, et al. Person Transfer GAN to Bridge Domain Gap for Person Re-Identification[J]. arXiv preprint arXiv:1711.08565, 2017.

      [28] Qian X, Fu Y, Wang W, et al. Pose-Normalized Image Generation for Person Re-identification[J]. arXiv preprint arXiv:1712.02225, 2017.

      機器學習 深度學習

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應(yīng)法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:《R數(shù)據(jù)科學實戰(zhàn):工具詳解與案例分析 》 —1.1.3 read.table—任意分隔符數(shù)據(jù)讀取
      下一篇:6 使用Ionic開發(fā)天氣應(yīng)用
      相關(guān)文章
      亚洲欧美日韩久久精品| 亚洲手机中文字幕| 亚洲午夜无码久久久久小说 | 亚洲色精品三区二区一区| 亚洲视频在线观看视频| 91亚洲精品视频| 蜜芽亚洲av无码精品色午夜| 亚洲国产精品第一区二区| 亚洲AV永久精品爱情岛论坛| 亚洲国产第一站精品蜜芽| 久久亚洲国产中v天仙www| 亚洲精品自产拍在线观看| 亚洲精品无码久久久久sm| 国产成人亚洲综合| 中文字幕无码精品亚洲资源网| 不卡一卡二卡三亚洲| 亚洲中久无码永久在线观看同| 国产亚洲成人在线播放va| ZZIJZZIJ亚洲日本少妇JIZJIZ| 亚洲精品无码av天堂| 亚洲性日韩精品一区二区三区| 亚洲一区精品伊人久久伊人| 精品亚洲一区二区三区在线播放| 中文字幕无码精品亚洲资源网| 亚洲乱码国产一区三区| 亚洲AV午夜福利精品一区二区 | 久久综合久久综合亚洲| 亚洲avav天堂av在线网爱情| 亚洲国产成人无码av在线播放| 亚洲一区电影在线观看| ASS亚洲熟妇毛茸茸PICS| 亚洲免费综合色在线视频| 亚洲阿v天堂在线2017免费| 国产精品亚洲一区二区三区 | 久久精品国产亚洲av瑜伽| 亚洲狠狠爱综合影院婷婷| 伊伊人成亚洲综合人网7777| 久久精品国产亚洲AV网站| 亚洲成a人片在线观看中文!!!| 精品丝袜国产自在线拍亚洲| 亚洲精品伦理熟女国产一区二区|