EfficientPS:一種高效高精度全景分割算法
前言
整體場景理解在實現智能行為中起著關鍵作用。人類從小就能毫不費力地理解復雜的視覺場景,這為學習更高級的能力奠定了基礎(Bremner和Slater, 2008)。類似地,諸如機器人這樣的智能系統應該有能力在基本像素級和非敏感對象實例級連貫地理解視覺場景。這使他們能夠感知和推理環(huán)境的整體,有利于互動。這種建模能力是一個至關重要的推動者,它可以徹底改變許多不同的應用,包括自動駕駛、監(jiān)視和增強現實。
了解一個人工智能操作的場景對其正常工作至關重要。這樣的場景理解需要識別交通參與者的實例以及一般場景語義,這可以通過全景分割任務有效地解決。在本文中,我們介紹了一種高效的全景分割(EfficientPS)體系結構,該體系結構由一個共享主干組成,該體系結構有效地編碼和融合語義豐富的多尺度特征。我們合并了一個新的語義頭,它將精細和上下文特征連貫地聚合在一起,并將Mask R-CNN的一個新變體作為實例頭部。我們還提出了一個新的全景融合模塊,它將我們的EfficientPS架構的兩個頭部的輸出邏輯一致地集成在一起,以產生最終的全景分割輸出。此外,我們還介紹了KITTI全景分割數據集,它包含了具有普遍挑戰(zhàn)性的KITTI基準的全景注釋。對城市景觀、KITTI、Mapillary遠景和印度駕駛數據集的廣泛評估表明,我們提出的架構始終在所有這四個基準上設定了最新的技術水平,同時也是迄今為止最高效、最快速的全景分割架構。
一、什么是全景分割?
全景分割(Panoptic Segmentation)即同時實現對背景的語義分割和前景的實例分割。這是圖像分割領域近來的新趨勢,是對環(huán)境感知的進一步演化。
從一些自動駕駛環(huán)境的視頻中可以看出,自駕汽車需要感知外景環(huán)境,包括建筑物、地面、天空、樹木這些背景,和行人、汽車、交通標志等前景,背景需要用語義分割技術計算出來,前景則需要標示出個體,即需要實例分割。
二、全景融合模塊
為了獲得全景分割輸出,我們需要融合語義分割頭和實例分割頭的預測。然而,由于它們之間固有的重疊,融合這兩種預測并不是一項簡單的任務。因此,我們提出一種新的全景融合模塊,以自適應的方式解決上述問題,以充分利用兩個頭的預測一致。圖4顯示了我們的全景融合模塊的拓撲結構。我們從網絡的實例分割頭獲得一組對象實例,其中對于每個實例,我們都有其對應的類預測,置信度得分,邊界框和掩碼logit。首先,我們分兩個階段減少預測對象實例的數量。我們首先丟棄置信值小于某個置信值閾值的所有對象實例。然后,我們將每個對象實例的28×28掩碼模型調整為零填充并縮放為與輸入圖像相同的分辨率。隨后,我們根據各自的置信度得分對類別預測,邊界框和掩碼模型進行排序。在第二階段,我們檢查每個排序后的實例掩碼模型是否與其他對象實例重疊。如果重疊高于給定的重疊閾值,我們將丟棄其他對象實例。
三、EfficientPS網絡架構
EfficientPS 算法分割結果如下:
EfficientPS的設計目標是在計算效率高的同時,實現比之前的最先進的模型更優(yōu)越的性能。
最初的全景分割方法是同時進行實例分割和語義分割,然后在后處理步驟中,將二者的預測結果結合在一起。可想而知這種方法計算開銷大,存在信息冗余且每個網絡的預測存在差異不易結合。盡管近來的方法已經在使用自上而下的共享網絡組件或自下而上的順序方式在解決這一任務方面取得了重大進展,但這些方法仍然存在計算效率和精度不足的問題。
EfficientPS?算法架構圖如下:
提出的EfficientPS體系結構如圖示,該體系結構由一個共享主干和雙向FPN,并行語義和實例分割頭以及隨后的全景融合模塊組成。 共享主干網絡建立在EfficientNet架構和我們新的雙向FPN上,該雙向FPN支持雙向信息流。 實例分割頭基于改進的Mask R-CNN拓撲,結合了提出的語義分割頭。 最后,兩個頭部的輸出在我們的全景融合模塊中融合,以產生全景分割輸出。
與采用在其他全景分割結構中常用的傳統FPN不同,結合提出的雙向FPN,融合多尺度特征比其相似算法更有效。這可以歸因于這樣一個事實,即在我們的雙向FPN中的信息流并不是僅局限于一個方向,如圖2中的紫色、藍色和綠色塊所示。在雙向FPN之后,我們采用兩個并行的頭部分別進行語義分割(用黃色表示)和實例分割(用灰色和橙色表示)。使用了Mask R-CNN網絡結構的變體作為實例頭,并結合了由密集預測單元和殘差金字塔組成的新的語義分割頭。語義頭由三個不同的模塊組成,分別用于捕捉精細特征、遠程上下文特征和關聯明顯捕獲的特征,以改善對象邊界的細化。最后,使用提出的全景融合模塊融合語義頭和實例頭的輸出,以產生全景分割輸出。
四、實驗結果
在 Cityscapes 數據集上,EfficientPS 排名第一,并且遠遠超過了之前的SOTA,同時參數更少,計算量更少,推理時間更快。
在Cityscapes語義分割基準和Cityscapes實例分割基準中,EfficientPS也在已發(fā)布的方法中排名第二。
在Mapillary Vistas、KITTI和IDD基準數據集上,EfficientPS 均為目前最先進的全景分割算法。
網絡 計算
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。