機(jī)器學(xué)習(xí)服務(wù)提取圖片的特征向量">使用SAP Leonardo上的機(jī)器學(xué)習(xí)服務(wù)提取圖片的特征向量
960
2025-03-31
摘要
三維目標(biāo)檢測是自動駕駛和虛擬現(xiàn)實(shí)中重要的場景理解任務(wù)。基于激光雷達(dá)技術(shù)的方法具有高性能,但激光雷達(dá)昂貴。考慮更一般的場景,沒有3d激光雷達(dá)數(shù)據(jù)的數(shù)據(jù)集,我們提出一個3d對象立體視覺檢測的方法,只需要RGB圖像與相應(yīng)的注釋3d邊界框作為訓(xùn)練數(shù)據(jù),不依賴于激光雷達(dá)數(shù)據(jù)作為輸入或監(jiān)督訓(xùn)練。針對目標(biāo)深度估計是影響三維目標(biāo)檢測性能的關(guān)鍵因素,提出了一種基于實(shí)例深度感知、視差自適應(yīng)和匹配代價調(diào)整的三維包圍盒中心深度預(yù)測模塊。此外,我們的模型是一個端到端的學(xué)習(xí)框架,不需要多個階段或后處理算法。我們在KITTI基準(zhǔn)上進(jìn)行了詳細(xì)的實(shí)驗(yàn),與現(xiàn)有的基于圖像的方法相比,取得了顯著的改進(jìn)。
一、引言
基于立體的三維物體檢測以立體圖像對為輸入,有方向的物體三維包圍盒為輸出。由于來自立體視覺的深度誤差隨距離呈二次增長,在訓(xùn)練過程中,如果僅僅依靠標(biāo)注的三維包圍盒進(jìn)行無深度圖的三維目標(biāo)檢測是比較困難的。目前,無監(jiān)督深度的基于立體的三維目標(biāo)檢測在目標(biāo)定位方面仍然滯后。我們希望彌合兩種方法(有和沒有深度數(shù)據(jù)監(jiān)督)之間的差距,使僅帶標(biāo)注的物理物體三維包圍盒的三維物體檢測性能可以接近使用深度圖像作為監(jiān)督的性能。
在本工作中,我們提出了一種基于立體視覺的三維目標(biāo)檢測方法,該方法在訓(xùn)練過程中不依賴于激光雷達(dá)數(shù)據(jù)作為輸入或監(jiān)督,而只使用帶有相應(yīng)標(biāo)注的三維邊界盒的RGB圖像作為訓(xùn)練數(shù)據(jù)。首先利用立體區(qū)域提議網(wǎng)絡(luò)(RPN)從背景中提取目標(biāo),消除其對三維目標(biāo)檢測的干擾。由于對象實(shí)例的深度估計是影響三維對象檢測性能的關(guān)鍵因素,因此我們設(shè)計了一個獨(dú)立的**實(shí)例深度感知(IDA)**模塊來預(yù)測對象三維邊界盒的中心深度。不像以前基于立體的方法計算圖像之間每個像素的對應(yīng)關(guān)系,我們測量每個實(shí)例的對應(yīng)關(guān)系(correspondence),把更多關(guān)注放在對象的全局空間信息。
為了減小對遠(yuǎn)處目標(biāo)深度估計的誤差,我們根據(jù)目標(biāo)的位置自適應(yīng)地調(diào)整代價體中的視差等級的范圍,并將視差等級的均勻量化轉(zhuǎn)換為非均勻量化。匹配代價也被重新加權(quán),通過懲罰對對象實(shí)例不是唯一的深度級別,并提升具有高概率的深度級別,從而使深度估計更具鑒別性。所提出的體系結(jié)構(gòu)的概述如圖1所示。
我們的主要貢獻(xiàn)如下:
我們提出了一個基于立體的端到端學(xué)習(xí)框架用于三維目標(biāo)檢測,既不依賴于深度圖像作為輸入或訓(xùn)練,也不需要多階段或后處理算法。
引入實(shí)例深度感知(IDA)模塊,通過實(shí)例深度感知、視差自適應(yīng)和匹配代價調(diào)整,準(zhǔn)確預(yù)測三維包圍盒中心深度,提高了三維目標(biāo)檢測的準(zhǔn)確性。
我們在KITTI 3D數(shù)據(jù)集上提供了詳細(xì)的實(shí)驗(yàn),與沒有深度地圖監(jiān)控的基于立體的方法相比,我們?nèi)〉昧俗钕冗M(jìn)的性能。
二、方法
我們提出了一種立體三維目標(biāo)檢測方法,該方法的訓(xùn)練數(shù)據(jù)僅僅是RGB圖像和相應(yīng)的帶注釋的三維邊界框,不以激光雷達(dá)獲得的深度作為輸入或中間監(jiān)督。我們不是通過手工設(shè)計立體算法,而是使用深度學(xué)習(xí)來學(xué)習(xí)從圖像對到物體3D邊界框的端到端映射。我們沒有將機(jī)器學(xué)習(xí)架構(gòu)構(gòu)建為一個黑匣子,而是認(rèn)識到三維目標(biāo)檢測誤差完全來自于三維邊界框中心深度估計z的誤差,因此我們單獨(dú)設(shè)計了一個回歸模型來獲取實(shí)例深度。在本文中,三維邊界框中心的坐標(biāo)z也稱為實(shí)例深度。而且,通過實(shí)例深度感知、視差自適應(yīng)和匹配代價調(diào)整,我們指導(dǎo)目標(biāo)深度估計的體系結(jié)構(gòu)設(shè)計。
2.1 實(shí)例深度估計
不像以前的立體網(wǎng)絡(luò),回歸每個像素的視差之間的矯正立體圖像,我們特別感興趣的是計算每個實(shí)例的視差來定位它的位置。我們不再計算圖像之間每個像素的對應(yīng)關(guān)系,而是度量圖像之間相同實(shí)例的對應(yīng)關(guān)系,更多地關(guān)注對象的全局空間信息。因此,在通過連接每個視差級別上的左右特征圖來形成維度為:視差×高度×寬度×特征尺寸的 cost volume 之后,我們使用兩個連續(xù)的3D卷積層,每個卷積層后面跟著一個3D最大池化層,以學(xué)習(xí)并對 cost volume 中的特征表示進(jìn)行下采樣。由于視差與深度成反比,并且兩者都代表物體的位置,因此我們在制定 cost volume 后將視差轉(zhuǎn)換為深度表示。
在網(wǎng)絡(luò)正則化的基礎(chǔ)上,將三維卷積神經(jīng)網(wǎng)絡(luò)的下采樣特征融合到三維邊界框中心的深度概率中。通過將每個深度z按其歸一化概率加權(quán)求和,最終得到3D長方體中心的深度,如公式1所示,其中N表示深度級數(shù),P(i)表示歸一化概率。
我們使用3D邊界框中心的真實(shí)深度來訓(xùn)練我們的模型,其中監(jiān)督回歸損失使用誤差定義:
如圖1的IDA模塊所示,如果一輛車的視差水平為di,當(dāng)其左右特征圖向相反方向移動時,兩個特征圖恰好在di處匹配,如 4D cost volume 中的紅色標(biāo)記所示。IDA模塊在Zi處輸出最大概率,其中Zi為di對應(yīng)的深度值。
模型參數(shù)如表1所示。圖3以一輛汽車的深度估計為例,將這一過程可視化,特征圖中亮黃色和深藍(lán)色分別表示激活較強(qiáng)和較低。以 cost volume 特征為輸入,可以看出,我們的網(wǎng)絡(luò)提取的特征圖逐漸從汽車的低級特征轉(zhuǎn)變?yōu)槠囍行纳疃雀怕实母呒壢痔卣鳌Ec此同時,汽車獨(dú)特的深度水平導(dǎo)致了最高的概率,如圖底部所示。這一現(xiàn)象說明,該模型對學(xué)習(xí)對象實(shí)例的正確深度的概率是有效的。
2.2 實(shí)例深度自適應(yīng)
以往的工作大多是為了提高視差估計的精度。然而,對于相同的視差誤差,深度誤差隨距離二次增加。這意味著對遠(yuǎn)處物體的深度估計視差誤差的影響要大于對附近物體的影響。這是導(dǎo)致糟糕的3D對象檢測的關(guān)鍵因素。為了使模型和損失函數(shù)更加關(guān)注較遠(yuǎn)的目標(biāo),我們將代價量中的視差級別由均勻量化改為非均勻量化,目標(biāo)距離越遠(yuǎn),兩個連續(xù)視差級別之間的劃分單元越小。這樣,就可以更精確地估計出遠(yuǎn)處物體的深度。非均勻量化或視差如圖2所示。
我們通過下面的式子實(shí)現(xiàn)均勻深度量化向非均勻深度量化的轉(zhuǎn)換,其中fu是水平焦距,b是雙目相機(jī)基線:
除了非均勻量化,我們不需要估計0-80m范圍內(nèi)的深度,因?yàn)橐惠v車的深度與它在圖像中的大小成反比。給定相機(jī)的固有參數(shù),我們可以根據(jù)圖像中聯(lián)合框的寬度粗略計算范圍。因此我們將深度估計的搜索范圍減小到[zmin, zmax],其中zmin和zmax分別表示每個對象的最小深度值和最大深度值。這種深度自適應(yīng)使量化的平均分割單元最小化,從而改進(jìn)了深度估計。
2.3 匹配代價權(quán)重
如公式(1)所示,3D盒子中心的深度是所有深度層的加權(quán)平均值,而不是最可能的,這可能導(dǎo)致非歧視性的深度估計。為了懲罰對對象實(shí)例來說不是唯一的深度級別,并提升具有高概率的深度級別,我們重新計算匹配代價。
權(quán)重分為兩部分,第一部分(圖1中的4D cost volume ),在 4D volume 的每個視差水平的左右特征圖之間打包一個差異特征圖。第二部分(圖1中的3DCNN),在深度上運(yùn)用注意機(jī)制。帶有這些殘差特征圖的 4D volume 將使后續(xù)的3D CNN在一定深度水平上考慮左右特征圖的差異并細(xì)化深度估計,而視差注意機(jī)制則為每個通道設(shè)置權(quán)重 r i r_i ri 。通過計算每個視差上左右特征圖的相關(guān)性得到的相關(guān)得分 r i r_i ri 為:
其中, r i r_i ri 是第i個通道的權(quán)值,cos為余弦相似度函數(shù)。 F i l F_i^l Fil , F i r F_i^r Fir 為 cost volume 內(nèi)的特征映射對。圖4中黑色和紅色分別表示了權(quán)重調(diào)整前后各深度上的兩條成本曲線。我們可以看到,重加權(quán)曲線的梯度比非加權(quán)曲線的梯度更陡,說明正確實(shí)例深度的概率增加了。
2.4 3D目標(biāo)檢測
除了實(shí)例深度估計,我們還需要估計物體中心的水平和垂直坐標(biāo)(x, y),目標(biāo)立體邊界框,尺寸和視點(diǎn)角度來完成三維物體檢測任務(wù)。我們設(shè)計了一個以左右感興趣區(qū)特征串聯(lián)為輸入的六并行全連接網(wǎng)絡(luò)。在確定了實(shí)例的深度后,就可以根據(jù)其投影(u, v)來計算對象中心在左攝像機(jī)坐標(biāo)系中的坐標(biāo)(x, y)。
式中 ( c u , c v ) (c_u, c_v) (cu ,cv )為相機(jī)中心, f u f_u fu , f v f_v fv 是為水平焦距和垂直焦距。從式(5)可以看出,深度估計的結(jié)果會影響到3D邊界框中心水平和垂直位置的估計,這說明深度估計在目標(biāo)檢測中起著重要的作用。因?yàn)橐粋€對象實(shí)例的左右中心之間的垂直坐標(biāo)(y)沒有平移,這個分支直接估計到真實(shí)值的偏移量 ( ? u l , ? v , ? u r ) (?u^l,?v,?u^r) (?ul,?v,?ur)。
對于圖5所示的方向回歸,我們使用類似于[20]中 Multibin 的方法估計解釋外觀變化的視點(diǎn)角度。方向角θ可由式6計算,說明深度估計的結(jié)果也會影響方向。
對于維度回歸,我們產(chǎn)生維度偏移(?h,?w,?l)到平均類大小(ˉh,ˉw,ˉl),這是給定類中所有對象的平均維度。三維邊界框的尺寸可以通過下面的變換計算出來:
2.5 實(shí)現(xiàn)細(xì)節(jié)
整個多任務(wù)損失可以表示為:
其中, L r p n L_{rpn} Lrpn 和 L 2 D b o x L_{2Dbox} L2Dbox 分別表示二維邊界框在立體RPN模塊和立體回歸模塊上的損失; L 3 D ( u , v ) L^{(u,v)}_{3D} L3D(u,v) 表示對象實(shí)例中心投影的損失; L z 3 D L_{z}^{3D} Lz3D 表示對象實(shí)例深度; L d i m L_{dim} Ldim 表示3D邊界盒尺寸的偏移回歸損失; L a L_a La 表示方位損失,包括離散角箱的分類損失和角箱偏移量的回歸損失。w1-w6是平衡參數(shù),用來平衡整個多任務(wù)損失。
我們采用兩權(quán)共享的ResNet50和FPN架構(gòu)作為特征提取器。在訓(xùn)練階段,我們將訓(xùn)練集中的圖像翻轉(zhuǎn),左右圖像交換,同時鏡像二維方框注釋、視點(diǎn)角度和質(zhì)心的二維投影,進(jìn)行數(shù)據(jù)增強(qiáng)。對于IDA模塊,我們將zmax和zmin24層的深度劃分為對象中心深度的估計。我們使用RPN模塊獲得的2D盒子作為IDA模塊的輸入,因?yàn)镮DA模塊可以提供更多的樣本進(jìn)行訓(xùn)練。而在推理過程中,我們使用2D回歸模塊獲得的2D box作為IDA模塊的輸入,因?yàn)樗峁┑腷ox更少,精度更高,可以減少計算成本。我們使用SGD優(yōu)化器訓(xùn)練我們的網(wǎng)絡(luò),初始學(xué)習(xí)率0.02,動量0.9,權(quán)重衰減0.0005。同時,我們在兩個NVIDIA 2080Ti gpu上設(shè)置批量大小為4,并在大約26小時內(nèi)訓(xùn)練80,000次迭代。
三、實(shí)驗(yàn)
我們在KITTI三維目標(biāo)檢測數(shù)據(jù)集上評估我們的方法,該數(shù)據(jù)集包含7481幅訓(xùn)練圖像和7581幅測試圖像。我們遵循與[4]相同的訓(xùn)練集和驗(yàn)證集的劃分方法,分別包含3712和3769張圖像。我們報告了IoU閾值為0.5和0.7的汽車類別的3D平均精度 ( A P 3 D ) (AP_{3D}) (AP3D )和鳥視平均精度 ( A P b e v ) (AP_{bev}) (APbev ),其中每個類別根據(jù)2D邊界框高、遮擋和截斷水平分為容易、中等和困難情況。
3.1 實(shí)例深度感知方法的結(jié)果
我們進(jìn)行定性和定量的實(shí)驗(yàn)。為了比較,我們在表2中總結(jié)了單目和雙目方法的主要結(jié)果。我們的方法在容易、中等和困難的情況下,在所有IoU閾值上都優(yōu)于以往的單目方法。特別地,在0.5 IoU時,我們方法的結(jié)果 A P b e v AP_{bev} APbev = 67.3%,優(yōu)于Stereo R-CNN (58.93%),達(dá)到8.37%以上的顯著改善。這可能是由于IDA模塊中的非均勻量化策略,減少了深度估計誤差,使我們的方法對遠(yuǎn)處目標(biāo)更具有魯棒性。
我們還將我們的方法與立體版本的偽激光雷達(dá)[25]進(jìn)行了比較,后者遵循兩階段網(wǎng)絡(luò):i)通過PSMNet[2]進(jìn)行深度圖估計,ii)通過FPointNet[21]或AVOD[11]進(jìn)行3D邊界盒回歸。但是,將我們的方法與偽激光雷達(dá)進(jìn)行比較是不公平的,因?yàn)槲覀儧]有使用深度圖作為中間監(jiān)督。我們的方法仍然可以達(dá)到表3所示的性能。此外,由于我們使用了一個相對于PSMNet的輕量級IDA模塊,形成了一個端到端網(wǎng)絡(luò),并且在一臺NVIDIA 2080Ti GPU上獲得了> 12幀/秒的高速,因此我們的方法復(fù)雜度更低。
視差適應(yīng)的消融研究。為了驗(yàn)證我們的視差自適應(yīng)策略的有效性,我們使用不同的視差量化策略根據(jù)距離對深度估計誤差進(jìn)行了評估。深度誤差的結(jié)果如圖6所示。對于2D IOU>0.5的檢測,誤差計算為預(yù)測的3D位置與真實(shí)值之間的平均差。不出所料,采用非均勻量化策略可以使深度估計誤差隨著距離的增加而進(jìn)一步減小。 對于50m以外的物體,從直方圖可以看出,非均勻量化對深度估計的精度影響較大。這一現(xiàn)象證明了我們的分析,距離較遠(yuǎn)的物體,兩個連續(xù)的視差水平之間的間隔越小,深度估計的效果就越好。
由于目標(biāo)實(shí)例的深度估計是影響三維目標(biāo)檢測性能的關(guān)鍵因素,因此我們的非均勻量化策略與均勻量化策略相比有了很大的改進(jìn)。詳細(xì)的統(tǒng)計數(shù)據(jù)可以在表4的前兩行中找到。
匹配代價重新加權(quán)的消融研究。表5顯示了匹配成本重新加權(quán)策略的效果。在我們的方法中,我們使用兩種策略來控制和促進(jìn)深度概率的峰值。第一種策略是將左右特征圖之間的差異特征圖與原始成本量進(jìn)行拼接,該差異特征圖用 D i f f Diff Diff表示。第二種策略是采用以 A t t Att Att為代表的3DCNN中的注意機(jī)制。在表5中,我們在我們的框架內(nèi)進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證每種策略的貢獻(xiàn)。通過 A t t Att Att和 D i f f Diff Diff,我們懲罰對于對象實(shí)例不是唯一的深度級別,而提升具有高概率的深度級別。因此,通過將兩種策略結(jié)合在一起,我們的方法獲得了性能上的提高。
3.2 定性結(jié)果
圖7顯示了Kitti數(shù)據(jù)集中幾個場景的定性檢測結(jié)果。可以看出,在常見的街道場景中,我們的方法能夠準(zhǔn)確地檢測到場景中的物體,并且檢測到的3D方框在正視圖像和點(diǎn)云上都能很好地對齊。特別是當(dāng)目標(biāo)距離攝像機(jī)很遠(yuǎn)時,我們的方法仍然能夠獲得如(A)和(B)所示的準(zhǔn)確檢測結(jié)果,這得益于我們的IDA模塊。在現(xiàn)場出現(xiàn)太多車輛或被他人嚴(yán)重遮擋的情況下,我們的方法也有可能成功定位這些物體,如?所示。
四、結(jié)論
在這項(xiàng)工作中,我們提出了一種端到端的學(xué)習(xí)框架,用于自動駕駛中基于立體圖像的三維目標(biāo)檢測。它既不依賴深度圖像作為輸入,也不依賴于訓(xùn)練,也不需要多級或后處理算法。引入立體RPN模塊產(chǎn)生一對聯(lián)合感興趣區(qū),避免了左右圖像對中同一目標(biāo)的復(fù)雜匹配,降低了背景對深度估計的干擾。特別設(shè)計的實(shí)例深度感知(IDA)模塊,在沒有密集深度圖的情況下,聚焦于對象,直接進(jìn)行實(shí)例深度回歸。此外,我們的方法通過視差自適應(yīng)和匹配代價的重新加權(quán),更加關(guān)注遠(yuǎn)處的目標(biāo)。我們的方法具有輕量級的網(wǎng)絡(luò)體系結(jié)構(gòu),與現(xiàn)有的基于圖像的性能相比取得了令人印象深刻的改進(jìn)。與一些深度圖監(jiān)督方法相比,我們的方法也獲得了與之相當(dāng)?shù)男阅堋?/p>
自動駕駛
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。