何愷明團隊開源 3D 目標檢測新框架 VoteNet:模型更簡單、效率更高
介紹
通過端到端的可微架構,在深度學習的背景下重新定制了霍夫投票,稱之為 VoteNet。
在 SUN RGB-D 和 ScanNet 兩個數據集上實現了最先進的 3D 目標檢測性能。
深入分析了投票在點云 3D 目標檢測中的重要性。
深度霍夫投票(Deep Hough Voting)
VoteNet 結構
圖 2 給出了端到端檢測網絡 VoteNet 的結構。整個網絡可以分為兩部分:一部分處理現有的點來生成投票;另一部分處理虛擬點——投票——來提出和分類目標。
從點云數據中學習投票
其中 1[si on object] 表示種子點 si 是否在目標表面上,Mpos 是目標表面上種子的總數。Δxi * 是從種子位置 xi 到它所屬物體的邊界框中心的真實偏移量。
從投票中得到目標的 proposal 和分類
實驗結果
與 SOTA 方法進行比較
!?image
實驗結果如表 1 和表 2 所示。在 SUN RGB-D 和 ScanNet 兩個數據集中,VoteNet 的性能都優于所有先前的方法,分別增加了 3.7 和 18.4 個 mAP。
表 1 表明,當類別為訓練樣本最多的“椅子”時,VoteNet 比以前的最優方法提高了 11AP。表 2 表明,僅采用幾何輸入時,VoteNet 顯著優于基于 3D CNN 的 3D-SIS 方法,超過了 33AP。
分析實驗
####投票好還是不投票好呢?
圖 4 給出了第二個分析,顯示了在同一個圖上(以不同的比例),對于每個 SUN RGB-D 的類別:(藍色點)在 VoteNet 和 BoxNet 之間 mAP 的增加,以及(紅色方塊)目標點和邊界框中心之間的最近距離。可以看出,當目標點遠離邊界框中心時,投票會起到更大的作用。
####投票聚合的效果
投票聚合是 VoteNet 的一個重要組成部分,因為它允許投票之間的溝通。因此,分析不同的聚合方案對性能的影響是非常有用的。
圖 5(右)表明,由于存在雜亂投票(即來自非目標種子的投票),使用學習的 PointNet 和最大池化進行投票聚合比手動聚合局部區域中的投票特征能獲得更好的結果。圖 5(左)給出了投票聚合半徑對檢測的影響。隨著聚和半徑的增加,VoteNet 的效果會不斷提高,在 0.2 半徑處達到峰值。當半徑過大時,引入了更多的雜亂投票,導致性能下降。
####模型大小和速度
VoteNet 利用了點云的稀疏性,避免在空的空間搜索。與以前的最佳方法相比,該模型比 F-PointNet 小 4 倍,在速度上比 3D-SIS 快 20 倍。
定性結果和討論
圖 6 和圖 7 分別給出了 VoteNet 在 ScanNet 和 SUN RGB-D 場景上檢測結果的幾個代表性示例。如圖所示,場景是非常多樣化的,并具有多種挑戰,包括雜亂、掃描偽影等。盡管存在這些挑戰,VoteNet 仍然顯示出相當強大的結果。
例如,圖 6 展示了 VoteNet 在頂部場景中正確地檢測到絕大多數椅子。該方法能夠很好地區分左下角場景中連起來的的沙發椅和沙發,并預測出了右下角場景中那張不完整的、雜亂的桌子的完整邊界框。
不過,該方法仍然有局限性。常見的失敗案例包括遺漏非常薄的物體,如門、窗和圖畫等圖 6 頂部場景中黑色邊界框表示的部分。由于沒有利用 RGB 信息,檢測到這些類別幾乎是不可能的。圖 7 也還顯示了該方法在單視圖深度圖像的部分掃描中的優勢。例如,它在左上方的場景中檢測到的椅子比真實值提供的更多。在右上角的場景中,可以看到盡管只看到沙發的一部分,VoteNet 依然成功繪制出了邊界框。
結論
論文原文:
Deep Hough Voting for 3D Object Detection in Point Clouds
轉自:https://www.infoq.cn/article/WA8UDIkvPiuC3krbNgNl
AI 深度學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。