實時立體匹配網絡StereoNet

      網友投稿 887 2025-04-04

      概要

      實時立體匹配網絡StereoNet

      本文介紹了首個用于實時立體匹配的端到端深度架構StereoNet,該架構可在NVidia Titan X上以60fps運行,生成高質量、邊緣保持、無量化的視差圖。本文的一個關鍵觀點是,該網絡的亞像素匹配精度比傳統的立體匹配方法高出一個量級。這允許我們通過使用非常低的分辨率成本來實現實時性能,編碼所需的所有信息,以實現高視差精度。

      項目開源連接:https://github.com/meteorshowers/X-StereoLab

      一、引入

      立體匹配是一個經典的計算機視覺問題,它涉及到從兩幅輕微位移的圖像中估計深度。隨著人們對虛擬現實和增強現實的興趣日益濃厚,深度估計技術最近被推向了研究的中心。它是很多任務的核心,從3D重建到定位和跟蹤。它的應用涵蓋了不同的研究和產品領域,包括室內測繪和建筑、自動駕駛汽車以及人體和面部跟蹤。

      在提出了一種新穎的深度網絡架構StereoNet,可以在NVidia Titan X上以60Hz的頻率生成最先進的720p深度圖??偠灾?,本文的主要貢獻如下:

      StereoNet 的亞像素匹配精度比“傳統”立體方法高一個數量級。

      該網絡的亞像素精度高,可以在非常低的分辨率Cost Volume下實現傳統立體匹配的深度精度。

      本文展示了之前在深度體系結構中引入成本-量的工作是對任務的過度參數化,以及這如何顯著地幫助減少系統的運行時和內存占用,而在精度方面的成本很小。

      一個新的層次深度細化層,能夠執行高質量的上采樣,保持邊緣。

      最后,證明了所提出的系統在幾個基準上達到了令人信服的結果,同時在高端GPU架構上是實時的。

      二、StereoNet 網絡架構

      2.1 整體結構

      我們的立體匹配方法結合了一種利用問題結構和經典方法來解決問題的設計。網絡的整體框架如下:

      2.2 粗略預測:Cost Volume Filtering

      立體系統一般是解決一個對應問題。這個問題通??梢詺w結為,通過在兩幅經過校正的圖像沿著掃描線找到像素對像素的匹配來形成視差圖。

      對平滑和邊緣保持解決方案的渴望導致了像 Cost Volume Filtering 這樣的方法,它通過形成和處理一個三維體積,在每個像素上共同解決所有候選差異,顯式地建模匹配問題。當直接使用顏色值進行匹配時,我們計算每個用于匹配的像素的特征表示。

      特征網絡。該流水線的第一步是找到一個有意義的圖像補丁的表示,該圖像補丁可以在后面的階段中精確匹配。我們記得立體聲受無紋理區域的困擾,傳統的方法通過使用大窗口聚合成本來解決這個問題。

      我們通過確保從一個大的感受域中提取特征,來復制網絡中相同的行為。特別是,我們使用了一個特征網絡,在兩個輸入圖像之間共享權重。我們首先使用 5 × 5 卷積以 2 的步幅對輸入圖像進行下采樣,在下采樣過程中保持32個通道。

      然后應用6個residual blocks,它們采用3 × 3卷積、批量歸一化和 leaky ReLu(α = 0.2)。最后,使用3 × 3卷積的最后一層處理,該卷積不使用批量歸一化或激活。輸出為下采樣圖像中每個像素處的32維特征向量。這種低分辨率的表示方式之所以重要有兩個原因:

      它有一個很大的感受域,對于無紋理區域很有用。

      保持特征向量緊湊。

      代價體。此時,我們利用像素的特征向量與匹配候選像素的特征向量之間的差值,形成粗分辨率下的代價體。我們注意到,非對稱表示一般表現良好,并連接兩個矢量在我們的實驗中取得了類似的結果。

      在這個階段,傳統的立體方法將使用一種贏者通吃的方法 ,在兩個特征矢量之間選擇歐幾里得度量最小的差距。相反,這里我們讓網絡通過運行多重卷積和非線性來學習正確的度量。

      2.3 層次細化: 邊緣感知上采樣

      依賴粗匹配的缺點是得到的近視輸出缺乏精細的細節。為了保持我們緊湊的設計,我們通過學習一個邊緣保護求精網絡來處理這個問題。我們注意到,網絡在這個階段的工作是擴大或削弱的差異值,以融入高頻細節使用顏色輸入作為指導,所以一個緊湊的網絡,學習像素到像素的映射,類似于網絡在最近的計算攝影工作 ,是一個適當的方法。具體來說,我們的任務精化網絡只找到殘差(或增量差異) ,以增加或減去粗預測。

      圖2顯示了層次結構的每個級別的精化層的輸出,以及每個級別上為恢復高頻細節而添加的殘差。這個網絡的行為讓人想起聯合雙邊上采樣,而且我們確實相信這個網絡是一個學習的邊緣感知上采樣功能,利用一個引導圖像。

      2.4 損失函數

      我們使用基于真值標記的立體數據,在完全監督的情況下訓練立體聲網絡。我們最小化層次損失函數:

      三、實驗

      在這里,本文在幾個數據集上評估我們的系統,并證明我們以最先進技術所需的計算成本的一小部分來獲得高質量的結果。

      四、結論

      本文提出了立體網絡,第一個實時的,高質量的端到端結構被動立體匹配。我們開始的洞察,低分辨率的成本容量包含大部分的信息,以生成高精度的視差圖和恢復薄結構給予足夠的訓練數據。我們演示了1/30像素的亞像素精度,超過了文獻中發表的極限。我們的改進方法分層復原高頻細節使用顏色輸入作為指導,繪制一個數據驅動的聯合雙邊上采樣算子的平行。

      我們的方法的主要局限性是由于缺乏有監督的訓練數據: 事實上,我們展示了當有足夠的例子時,我們的方法達到了最先進的結果。為了減輕這種影響,我們未來的工作包括監督和自我監督學習的結合,以增加訓練集。

      神經網絡

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:word創建表格的三種方法分別是什么(word中創建表格的方法有哪三種)
      下一篇:做一個快樂的程序員
      相關文章
      亚洲伊人久久综合中文成人网| 天堂亚洲免费视频| 亚洲中文字幕成人在线| 久久亚洲精品无码av| 美女视频黄免费亚洲| 亚洲精品中文字幕乱码影院| 91久久亚洲国产成人精品性色| 亚洲成人在线电影| 亚洲国产精品国自产电影| 亚洲成年人在线观看| 久久综合亚洲色HEZYO社区| 亚洲一区二区三区电影| 亚洲一区二区三区电影| 99ri精品国产亚洲| 亚洲黄色高清视频| 亚洲欧洲国产综合| 亚洲另类图片另类电影| 亚洲中文无码av永久| 亚洲高清有码中文字| 亚洲色中文字幕在线播放| 亚洲欧美aⅴ在线资源| 亚洲av无码一区二区三区四区| 亚洲日韩在线中文字幕综合| 无码欧精品亚洲日韩一区夜夜嗨| 亚洲av高清在线观看一区二区| 久久久久亚洲AV无码专区桃色| 国产亚洲精品线观看动态图| 亚洲日韩精品A∨片无码| 亚洲国产精品无码久久久秋霞2 | 在线亚洲高清揄拍自拍一品区| 亚洲中文字幕AV每天更新| 亚洲国产精品无码中文lv| 国产精品亚洲一区二区无码| 亚洲精品国精品久久99热| 永久亚洲成a人片777777| 亚洲AV无码第一区二区三区 | 大胆亚洲人体视频| 亚洲色婷婷六月亚洲婷婷6月| 久久综合日韩亚洲精品色| 91在线精品亚洲一区二区| 亚洲一级毛片在线播放|