MOT論文筆記Towards Real-Time Multi-Object Tracking》

      網友投稿 918 2022-05-30

      論文地址:https://arxiv.org/pdf/1909.12605v1.pdf

      代碼地址:https://github.com/Zhongdao/Towards-Realtime-MOT

      Abstract

      當前的多目標跟蹤(MOT)系統通常遵循 “tracking-by-detection”的方式,主要由兩部分組成(1)檢測模型----用于目標定位(2)appearance embedding模型----用于數據關聯。分別執行兩個模型會降低時間效率。現有的關于實時MOT的研究工作通常集中在關聯步驟上,因此它們本質上是實時關聯方法,而不是實時MOT系統。這篇論文提出了一種MOT系統,將appearance embedding 模型合并到單個檢測器中,以便該模型可以同時輸出檢測結果和相應的embedding。這樣,該系統被表述為一個多任務學習問題:存在多個任務,即錨點分類,邊界框回歸和嵌入學習; 并自動對單個損失進行加權。這項工作報告了第一個(近)實時MOT系統,其運行速度取決于輸入分辨率,可以達到18.8至24.1 FPS。同時,其跟蹤準確性可與采用獨立檢測和嵌入(SDE)學習的最新-相媲美(64.4% MOTA v.s. 66.1% MOTA on MOT-16 challenge).

      Introduction

      (Milan et al. 2016; Yu et al. 2016; Choi 2015)將MOT分解為兩個步驟:1)檢測步驟,目標在單個視頻幀已本地化; 2)關聯步驟,在其中分配檢測到的目標并將其連接到現有軌跡。 這意味著系統至少需要兩個計算密集型組件:a detector and an embedding (re-ID) model。為了方便起見,我們將這些方法稱為“分離的檢測和嵌入”方法(Separate Detection and Embedding (SDE)。因此,總推理時間大致是兩個分量的總和,并且將隨著目標數量的增加而增加。

      為了節省計算,一個可行的想法是將檢測器和嵌入模型集成到單個網絡中。因此,這兩個任務可以共享同一組低級特征,并且避免了重新計算。聯合檢測器和嵌入學習的一種選擇是采用Faster R-CNN,具體來說,第一階段使用RPN網絡,與Faster R-CNN保持相同,并輸出檢測到的邊界框。 第二階段,Fast R-CNN 通過用度量學習監督取代分類監督來轉化為嵌入學習模型(Xiao et al. 2017;Voigtlaender et al. 2019)。盡管節省了一些計算,但由于采用了兩階段設計,因此該方法的速度仍然受到限制,并且通常以不到10FPS的速度運行,這遠遠超出了實時要求。此外,第二階段的運行時間也像SDE方法一樣隨著目標數量的增加而增加。

      本文致力于提高MOT系統的效率。 我們介紹了一種在單個深度網絡中聯合學習檢測器和嵌入模型(JDE)的早期嘗試。換句話說,提出的JDE使用單個網絡來同時輸出檢測結果和檢測框的相應外觀嵌入。相比之下,SDE方法和兩階段方法分別以重新采樣的像素(邊界框)和特征圖為特征。邊界框和特征圖都被饋入單獨的re-ID模型中以提取外觀特征。

      圖1簡要說明了SDE方法,兩階段方法和的JDE之間的區別。我們的方法幾乎是實時的,但幾乎與SDE方法一樣準確。 例如,在MOT-16測試上的MOTA = 64.4%,我們獲得了18.8 FPS的運行時間。相比之下,在MOT-16測試上,Faster R-CNN + QAN 方法僅以<6 FPS進行,MOTA = 66.1%。

      為了構建高效,準確的聯合學習框架,我們探索并設計以下基本方面:訓練數據,網絡體系結構,學習目標,優化策略和驗證指標。

      首先,我們收集了六個關于行人檢測和人員搜索的公開可用數據集,以形成統一的大規模多標簽數據集。在這個統一的數據集中,所有行人邊界框都被標記,一部分行人身份ID被標記。

      其次,我們選擇特征金字塔網絡(FPN)(Lin et al.2017)作為我們的基本架構,并討論網絡使用哪種損失函數可以達到最佳嵌入。然后,我們將訓練過程建模為具有錨分類,框回歸和嵌入學習的多任務學習問題。為了平衡每個任務的重要性,我們采用了( task-dependent uncertainty)任務相關的不確定性(Kendall, Gal, and Cipolla 2018)來動態加權異構損失。

      最后,我們采用以下評估指標。 平均精度(AP)用于評估檢測器的性能。采用FAR)和(TAR)來評估嵌入的質量。總體MOT準確性由CLEAR指標(Bernardin和Stiefel-hagen 2008)評估,最重要的是MOTA指標。 本文還為聯合學習檢測和嵌入任務提供了一系列新的設置和基線,我們認為這將有助于對實時MOT的研究。

      Joint Learning of Detection and Embedding Problem Settings

      JDE的目的是在單次前向傳播中同時輸出目標的位置和外觀嵌入。假定有一個數據集{I,B,Y},I表示圖像幀,B表示此幀中k個目標的邊界框注釋,y表示部分身份標簽標注,其中-1表示目標沒有身份標簽。 JDE的目的是輸出預測的邊界框B和外觀嵌入F,其中F中的D表示嵌入的維度。應滿足以下兩個目標。

      第一個目標要求模型能夠準確檢測目標。

      第二個目標是要求外觀嵌入具有以下特性。連續幀中相同身份的檢測框之間的距離應小于不同身份之間的距離。距離度量d(·)可以是歐式距離或余弦距離。 從技術上講,如果兩個目標都得到滿足,那么即使是簡單的關聯策略,例如匈牙利算法,也會產生良好的跟蹤結果。

      Architecture Overview

      我們采用特征金字塔網絡(FPN)的體系結構(Lin et al.2017)。FPN從多個尺度進行預測,從而在目標尺度變化很大的行人檢測中帶來了改進。 圖2簡要顯示了JDE中使用的神經體系結構。

      輸入視頻幀首先經過骨干網絡分別獲得三個尺度的特征圖(1/32、1/16、 1/8的下采樣率),然后,通過 skip connection 對具有最小大小(也是語義上最強的特征)的特征圖進行上采樣并與第二小的比例尺上的特征圖相融合,其他比例尺也是如此。最后,將預測頭添加到所有三個比例的融合特征圖上。預測頭由幾個堆疊的卷積層組成,并輸出一個大小為(6A + D)×H×W的密集預測圖,其中A是分配給該比例的錨模板的數量,D是嵌入的維度 。

      密集預測圖分為三個部分(任務):

      1.檢測框的分類結果:2A×H×W

      2.檢測框的回歸系數:4A×H×W

      3.密集嵌入圖:D×H×W

      Learning to Detect

      檢測分支類似于標準RPN,這里做出了兩個修改。首先,我們根據數量,比例和長寬比重新設計錨,以適應目標,即本例中的行人。根據共同的先驗,所有錨點的長寬比均設置為1:3。錨點模板的數量設置為12,使得每個尺度的A = 4,錨點的尺度(寬度)范圍為11-512。其次,我們注意到為用于前景/背景分配的雙重閾值選擇適當的值很重要。通過可視化,我們確定IOU> 0.5 w.r.t. ground truth 大致確保了前景,這與通用對象檢測中的通用設置一致。另一方面,IOU <0.4 w.r.t.的框 在我們的案例中,ground truth 應被視為背景,而不是一般情況下的0.3。我們的初步實驗表明,這些閾值可有效抑制虛假誤報,這種警報通常發生在重度遮擋下。

      檢測的學習目標具有兩個損失函數,即前景/背景分類損失Lα和邊界框回歸損失Lβ。 Lα被公式化為交叉熵損失,Lβ被公式化為平滑L1損失。 回歸目標的編碼方式與(Ren et al.2015)相同。

      Learning Appearance Embeddings

      第二個目標是度量學習問題,即學習一個嵌入空間,其中相同身份的實例彼此靠近,而不同身份的實例相距甚遠。為了實現這一目標,有效的解決方案是使用triplet loss (Schroff, Kalenichenko, and Philbin 2015),在以前的MOT工作中也使用了triplet loss(Voigtlaender等人2019)。我們使用triplet loss

      第二個挑戰是triplet loss的訓練可能不穩定,收斂速度可能很慢。為了穩定訓練過程并加快融合,(Sohn 2016)提出了在triplet loss的平滑上限上進行優化的建議,

      根據以上分析,我們推測在我們的情況下這三個損失的表現應該是LCE> Lupper> Ltriplet。 實驗部分的實驗結果證實了這一點。這樣,我們選擇交叉熵損失作為嵌入學習的目標(以下稱為Lγ)。

      具體來說,如果將定位框標記為前景,從密集嵌入圖中提取相應的嵌入向量。將提取的嵌入內容饋送到共享的全連接層中,以輸出類Logit,然后將交叉熵損失應用于Logit。以這種方式,來自多個尺度的嵌入共享相同的空間,并且跨尺度的關聯是可行的。在計算嵌入損失時,將忽略帶有標簽-1的嵌入,即帶有框注釋但沒有身份注釋的前景。

      Automatic Loss Balancing

      JDE中每個預測頭的學習目標可以建模為多任務學習問題。聯合目標可以表示為每個尺度和每個組成部分的加權線性損失總和

      我們采用(Kendall,Gal和Cipolla 2018)提出的針對任務權重的自動學習方案,采用了任務無關的不確定性概念。 形式上,具有自動損失平衡的學習目標寫為

      Online Association

      在這里我們介紹一種簡單快速的在線關聯策略,以與JDE結合使用。

      對于給定的視頻,JDE模型處理每個幀并輸出邊框和相應的外觀嵌入。 因此,我們計算觀測值的嵌入與之前存在的軌跡池中的嵌入之間的關聯矩陣。 使用匈牙利算法將觀測分配給軌跡。 卡爾曼濾波器用于平滑軌跡并預測先前軌跡在當前幀中的位置。如果所分配的觀測值在空間上與預測位置相距太遠,則該分配將被拒絕。然后,對一個-的嵌入進行如下更新,如果沒有任何觀察值分配給Tracklet,則將該Tracklet標記為丟失;如果丟失的時間大于給定的閾值,則標記為已丟失的跟蹤,將從當前的跟蹤池中刪除;或者將在分配步驟中重新找到。

      Experiments

      Datasets and Evaluation Metrics

      在小型數據集上進行實驗可能會導致有偏差的結果,并且在將相同算法應用于大規模數據集時可能無法得出結論。因此,我們通過將六個關于行人檢測,MOT和人員搜索的公開可用數據集組合在一起,構建了大規模的訓練集。這些數據集可以分為兩種類型:僅包含邊界框注釋的數據集,以及同時具有邊界框和身份注釋的數據集。

      第一類包括ETH數據集和CityPersons(CP)數據集。第二類包括CalTech(CT)數據集,MOT-16(M16)數據集,CUHK-SYSU(CS)數據集和PRW數據集 。收集所有這些數據集的訓練子集以形成聯合訓練集,并排除ETH數據集中與MOT-16測試集重疊的視頻以進行公平評估。 表1顯示了聯合訓練集的統計數據。

      為了進行驗證/評估,需要評估性能的三個方面:檢測準確性,嵌入的判別能力以及整個MOT系統的跟蹤性能。 為了評估檢測精度,我們在Caltech驗證集上以0.5的IOU閾值計算平均精度(AP)。為了評估外觀嵌入,我們在Caltech數據集的驗證集上提取所有ground truth框的嵌入,CUHK-SYSU數據集和PRW數據集在這些實例中應用1:N檢索,并以錯誤接受率0.1(TPR@FAR=0.1)報告真實的陽性率。為了評估整個MOT系統的跟蹤精度,我們采用CLEAR度量(Bernardin和Stiefelhagen 2008),特別是最適合人類感知的MOTA度量。 在驗證中,我們將MOT-15訓練集使用重復的序列,并將訓練集刪除。在測試過程中,我們使用MOT-16測試集與現有方法進行比較。

      Implementation Details

      MOT論文筆記《Towards Real-Time Multi-Object Tracking》

      我們使用DarkNet-53(Redmon和Farhadi 2018)作為JDE中的backbone network。 該網絡使用標準SGD訓練了30個epoch。 學習率初始化為10-2,并在第15和第23個時期降低0.1。幾種數據增強技術(例如隨機旋轉,隨機縮放和顏色抖動)可用于減少過度擬合。 最后,將增強圖像調整為固定分辨率。 如果未指定,則輸入分辨率為1088×608。

      Experimental Results

      Comparison of the three loss functions for appearance embedding learning

      Comparison with SDE methods

      在圖4中,我們針對上述檢測器和re-id模型的SDE組合的運行時間(每幅圖像)繪制了MOTA度量。

      所有模型的運行時都在單個Nvidia Titan xp GPU上進行了測試。 圖4(a)顯示了在MOT-15訓練集上的比較,其中行人密度較低。 相反,圖4(b)顯示了包含高密度人群的視頻序列的比較(來自CVPR19 MOT挑戰數據的CVPR19-01)。 可以得出幾個觀察結果。

      Comparison with the state-of-the-art MOT systems.

      提出的JDE的運行速度也比現有方法至少快2到3倍,在接近1088×608的圖像分辨率下達到接近實時的速度,即18.8 FPS。當我們對輸入幀進行下采樣以降低分辨率為864×408時,僅需一個JDE的運行時間就可以進一步加速到24.1 FPS。輕微的性能下降(? = -2.6%MOTA)。

      人工智能

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Python 前端開發之CSS浮動
      下一篇:Oracle RAC數據庫備份故障一例
      相關文章
      亚洲网站免费观看| 亚洲色成人中文字幕网站| 国产AV无码专区亚洲Av| AV激情亚洲男人的天堂国语| 亚洲中文字幕无码中文字| 亚洲AV综合色区无码二区爱AV| 亚洲国产高清在线精品一区| 亚洲精品视频在线观看视频| 久久久亚洲精品国产| 亚洲s色大片在线观看| 亚洲av无码成人黄网站在线观看| 亚洲va无码手机在线电影| 亚洲V无码一区二区三区四区观看| 亚洲毛片αv无线播放一区| 亚洲欧洲精品无码AV| 亚洲国产精品一区二区成人片国内 | 亚洲欧洲自拍拍偷精品 美利坚| 亚洲成AV人在线观看网址| 免费观看亚洲人成网站| 亚洲av无码天堂一区二区三区| 亚洲不卡无码av中文字幕| 亚洲午夜福利精品久久| 中文字幕人成人乱码亚洲电影 | 亚洲色成人网站WWW永久| 亚洲精品国产精品乱码不卡√| 亚洲国产精华液网站w| 久久亚洲精品成人| 666精品国产精品亚洲| 亚洲中文字幕人成乱码| 亚洲无码一区二区三区| 爱情岛亚洲论坛在线观看| 亚洲美女高清一区二区三区| 国产精品亚洲高清一区二区| 亚洲精品成人无码中文毛片不卡| 久久精品国产精品亚洲色婷婷| 91大神亚洲影视在线| 中文字幕乱码亚洲精品一区| 国产精品亚洲精品久久精品| 亚洲日韩国产精品乱| 亚洲av无码潮喷在线观看| 亚洲精品中文字幕乱码影院|