YOLOR:多任務的統一網絡

      網友投稿 856 2025-04-01

      人們通過視覺、聽覺、觸覺以及過去的經驗“理解”世界。人類經驗可以通過正常學習(我們稱之為顯性知識)或潛意識(我們稱之為隱性知識)來學習。這些通過正常學習或潛意識學習到的經驗將被編碼并存儲在大腦中。使用這些豐富的經驗作為一個龐大的數據庫,人類可以有效地處理數據,即使它們是事先不可見的。在本文中,我們提出了一個統一的網絡來將隱性知識和顯性知識編碼在一起,就像人腦可以從正常學習和潛意識學習中學習知識一樣。統一網絡可以生成統一的表示以同時服務于各種任務。我們可以在卷積神經網絡中執行內核空間對齊、預測優化和多任務學習。結果表明,當隱性知識被引入神經網絡時,它有利于所有任務的性能。我們進一步分析了從所提出的統一網絡中學習到的隱式表示,它在捕捉不同任務的物理意義方面顯示出強大的能力。源碼位于:https://github.com/WongKinYiu/yolor。

      1、介紹

      如圖 1 所示,人類可以從不同角度分析同一條數據。 然而,經過訓練的卷積神經網絡 (CNN) 模型通常只能實現一個目標。 一般來說,可以從經過訓練的 CNN 中提取的特征通常對其他類型的問題的適應性較差。 造成上述問題的主要原因是我們只從神經元中提取特征,沒有使用CNN中豐富的隱式知識。 當真正的人腦在運作時,前述的隱性知識可以有效輔助大腦執行各種任務。

      隱性知識是指在潛意識狀態下學到的知識。 然而,對于內隱學習如何運作以及如何獲得內隱知識,并沒有系統的定義。 在神經網絡的一般定義中,從淺層獲得的特征通常稱為顯性知識,從深層獲得的特征稱為隱性知識。 在本文中,我們將與觀察直接對應的知識稱為顯性知識。 對于模型中隱含的與觀察無關的知識,我們稱之為隱性知識。

      我們提出了一個統一的網絡來整合隱性知識和顯性知識,并使學習到的模型包含一個通用表示,而這個通用表示使子表示適用于各種任務。 圖 2.(c) 說明了提議的統一網絡架構。

      構建上述統一網絡的方式是結合壓縮感知和深度學習,主要的理論基礎可以在我們之前的工作中找到[16,17,18]。 在[16]中,我們證明了通過擴展字典重構殘差的有效性。 在 [17, 18] 中,我們使用稀疏編碼來重建 CNN 的特征圖并使其更加魯棒。 這項工作的貢獻總結如下:

      我們提出了一個可以完成各種任務的統一網絡,它通過整合隱性知識和顯性知識來學習一種通用表示,通過這種通用表示可以完成各種任務。 所提出的網絡以極少量的額外成本(少于一萬個參數和計算量)有效地提高了模型的性能。

      我們將核空間對齊、預測細化和多任務學習引入到隱性知識學習過程中,并驗證了它們的有效性。

      我們分別討論了使用向量、神經網絡或矩陣分解作為工具對隱性知識進行建模的方法,同時驗證了其有效性。

      我們確認所提出的隱式表示學習可以準確對應特定的物理特征,并且我們還以視覺方式呈現它。 我們還證實,如果算子符合某個目標的物理意義,則可以用來整合隱性知識和顯性知識,并且會產生事半功倍的效果。

      結合最先進的方法,我們提出的統一網絡在物體檢測方面達到了與 Scaled-YOLOv4-P7 [15] 相當的準確度,推理速度提高了 88%。

      2、相關工作

      我們對與該研究主題相關的文獻進行了回顧。 本次文獻綜述主要分為三個方面:(1)顯式深度學習:將涵蓋一些可以根據輸入數據自動調整或選擇特征的方法,(2)隱式深度學習:將涵蓋隱式深度學習的相關文獻 知識學習和隱性微分導數,以及(3)知識建模:將列出幾種可以用來整合隱性知識和顯性知識的方法。

      2.1.顯式深度學習

      顯式深度學習可以通過以下方式進行。其中,Transformer [14, 5, 20] 是一種方式,主要是通過query、key、value來獲取self-attention。非局部網絡 [21, 4, 24] 是另一種獲得注意力的方式,它主要是在時間和空間上提取成對的注意力。另一種常用的顯式深度學習方法 [7, 25] 是通過輸入數據自動選擇合適的核。

      2.2.隱式深度學習

      屬于隱式深度學習范疇的方法主要是隱式神經表征[11]和深度均衡模型[2,3,19]。前者主要是獲取離散輸入的參數化連續映射表示來執行不同的任務,而后者是將隱式學習轉化為殘差形式的神經網絡,并對其進行平衡點計算。

      2.3.知識建模

      至于屬于知識建模范疇的方法,主要包括稀疏表示[1, 23]和記憶網絡[22, 12]。前者使用exemplar、prefixed over complete或learned dictionary進行建模,后者依靠結合各種形式的embedding來形成記憶,使記憶能夠動態地添加或改變。

      3、隱性知識如何運作?

      本研究的主要目的是進行一個統一的網絡,可以有效地訓練隱性知識,所以在后續我們將首先關注如何訓練隱性知識并對其進行快速推理。由于隱式表示 zi 與觀察無關,我們可以將其視為一組常數張量Z=\left\{\mathbf{z}_{1}, \mathbf{z}_{2}, \ldots, \mathbf{z}_{k}\right\}。在本節中,我們將介紹作為常數張量的隱性知識如何應用于各種任務。

      3.1.多種空間降低

      我們認為一個好的表示應該能夠在它所屬的流形空間中找到合適的投影,并促進后續客觀任務的成功。例如,如圖 3 所示,如果目標類別可以通過投影空間中的超平面成功分類,那將是最好的結果。在上面的例子中,我們可以通過投影向量和隱式表示的內積來達到降低流形空間維數,有效完成各種任務的目的。

      3.2. 內核空間對齊

      在多任務和多頭神經網絡中,內核空間未對齊是一個常見問題,圖 4.(a) 說明了多任務和多頭 NN 中內核空間未對齊的示例。 為了解決這個問題,我們可以對輸出特征和隱式表示進行加法和乘法,從而可以平移、旋轉和縮放核空間以對齊神經網絡的每個輸出核空間,如圖4(b)所示。 . 上述操作模式可以廣泛應用于不同領域,例如特征金字塔網絡(FPN)[8]中大對象和小對象的特征對齊,使用知識蒸餾來整合大模型和小模型,以及 處理零樣本域轉移和其他問題。

      3.3. 更多功能

      除了可以應用于不同任務的功能外,隱性知識還可以擴展到更多的功能中。 如圖5所示,通過引入加法,可以使神經網絡預測中心坐標的偏移。 還可以引入乘法來自動搜索錨的超參數集,這是基于錨的對象檢測器經常需要的。 此外,可以分別使用點乘法和串聯法來執行多任務特征選擇并為后續計算設置前提條件。

      4、我們統一網絡中的隱性知識

      在本節中,我們將比較傳統網絡和提出的統一網絡的目標函數,并解釋為什么引入隱性知識對于訓練多用途網絡很重要。 同時,我們還將詳細闡述本工作中提出的方法的細節。

      4.1. 隱性知識的形成

      常規網絡:對于常規網絡訓練的目標函數,我們可以用(1)表示如下:

      $$

      y=f_{\theta}(\mathbf{x})+\epsilon

      $$

      minimize \epsilon

      其中 x 是觀察值,θ 是神經網絡的參數集,f_{θ }表示神經網絡的操作,是誤差項,y 是給定任務的目標。

      在傳統神經網絡的訓練過程中,通常會最小化\epsilon使 f_{θ}(x) 盡可能接近目標。 這意味著我們期望對同一目標的不同觀察是由 fθ 獲得的子空間中的單個點,如圖 6.(a) 所示。 換句話說,我們期望獲得的解空間僅對當前任務t_{i}具有判別性,并且對各種潛在任務中的 t_{i} 以外的任務不變,T \backslash t_{i},其中T=\left\{t_{1}, t_{2}, \ldots, t_{n}\right\}。

      YOLOR:多任務的統一網絡

      對于通用神經網絡,我們希望得到的表征可以服務于所有屬于 T 的任務。因此,我們需要放松,使得可以在流形空間上同時找到每個任務的解,如圖 6 所示 .(b)。 但是,上述要求使我們無法使用簡單的數學方法,例如one-hot向量的最大值或歐幾里得距離的閾值來獲得t_{i}的解。 為了解決這個問題,我們必須對誤差項進行建模以找到不同任務的解決方案,如圖 6.(c)

      統一網絡:

      為了訓練提出的統一網絡,我們一起使用顯性和隱性知識對誤差項進行建模,然后用它來指導多用途網絡訓練過程。 對應的訓練方程如下:

      $$

      \begin{aligned} &y=f_{\theta}(\mathbf{x})+\epsilon+g_{\phi}\left(\epsilon_{e x}(\mathbf{x}), \epsilon_{i m}(\mathbf{z})\right) \\ &\text { minimize } \epsilon+g_{\phi}\left(\epsilon_{e x}(\mathbf{x}), \epsilon_{i m}(\mathbf{z})\right) \end{aligned}

      $$

      其中 \epsilon_{e x} 和 \epsilon_{i m} 是分別建模來自觀察 x 和潛在代碼 z 的顯式誤差和隱式誤差的操作。 g_{\phi} 在這里是一個特定于任務的操作,用于從顯性知識和隱性知識中組合或選擇信息。

      有一些現有的方法可以將顯性知識整合到 f_{\theta}中,因此我們可以將(2)重寫為(3)。

      $$

      y=f_{\theta}(\mathbf{x}) \star g_{\phi}(\mathbf{z})

      $$

      其中 \star 表示可以組合 f_{\theta} 和 g_{\phi} 的一些可能的算子。 在這項工作中,將使用第 3 節中介紹的運算符,即加法、乘法和連接。

      如果我們將誤差項的推導過程擴展到處理多個任務,我們可以得到以下等式:

      $$

      F(\mathbf{x}, \theta, \mathbf{Z}, \Phi, Y, \Psi)=0

      $$

      其中 \mathbf{Z}=\left\{\mathbf{z}_{1}, \mathbf{z}_{2}, \ldots, \mathbf{z}_{T}\right\} 是T個不同任務的一組隱式潛在代碼。 Φ 是可用于從 Z 生成隱式表示的參數。 \Psi 用于從顯式表示和隱式表示的不同組合計算最終輸出參數。

      對于不同的任務,我們可以使用下面的公式來獲得對所有z \in Z的預測:

      $$

      d_{\Psi}\left(f_{\theta}(\mathbf{x}), g_{\Phi}(\mathbf{z}), y\right)=0

      $$

      對于所有任務,我們從一個通用的統一表示 f_{\theta}(x) 開始,經過特定任務的隱式表示 g_{\Phi}(\mathbf{z}),最后使用特定任務的判別器 d_{\Psi} 完成不同的任務。

      4.2. 隱性知識建模

      我們提出的隱性知識可以通過以下方式建模: 向量/矩陣/張量:

      z

      直接使用向量 z 作為隱式知識的先驗,直接作為隱式表示。 這時,必須假設每個維度都是相互獨立的。 神經網絡:

      W_{z}

      使用向量z作為隱式知識的先驗,然后使用權重矩陣W進行線性組合或非線性化,成為隱式表示。 這時,必須假設每個維度都是相互依賴的。 我們還可以使用更復雜的神經網絡來生成隱式表示。 或者使用馬爾可夫鏈來模擬不同任務之間隱式表示的相關性。 矩陣分解:

      Z^{T}c

      使用多個向量作為隱式知識的先驗,這些隱式先驗基Z和系數c將形成隱式表示。 我們還可以進一步對 c 做稀疏約束,將其轉化為稀疏表示形式。 此外,我們還可以對 Z 和 c 施加非負約束,將它們轉換為非負矩陣分解(NMF)形式。

      4.3. 訓練

      假設我們的模型在開始時沒有任何先驗的隱性知識,也就是說,它不會對顯式表示 fθ(x) 產生任何影響。 當組合運算符\star \in{addition; concatenation },初始隱式先驗 \mathbf{Z} \sim N(0, \sigma),以及何時組合算子 \star 是乘法,\mathbf{z} \sim N(1, \sigma)。 這里,σ 是一個非常小的值,接近于零。 對于 z 和 φ,它們都在訓練過程中使用反向傳播算法進行訓練。

      4.4. 推理

      由于隱式知識與觀察x無關,無論隱式模型gφ有多復雜,都可以在推理階段執行之前將其簡化為一組常數張量。 換句話說,隱含信息的形成對我們算法的計算復雜度幾乎沒有影響。 另外,當上面的算子是乘法的時候,如果后面的層是卷積層,那么我們就用下面的(9)來積分。 當遇到加法算子,如果前一層是卷積層,沒有激活函數,那么就用下圖的(10)來積分。

      5、實驗

      我們的實驗采用了 MSCOCO 數據集 [9],因為它為許多不同的任務提供了真實情況,包括對象檢測、實例分割、全景分割、關鍵點檢測、素材分割、圖像標題、多標簽圖像分類和長尾對象識別 . 這些具有豐富注釋內容的數據可以幫助訓練一個統一的網絡,該網絡可以支持計算機視覺相關任務以及自然語言處理任務。

      5.1. 實驗裝置

      在實驗設計中,我們選擇將隱式知識應用到三個方面,包括 1FPN 的特征對齊、 預測細化和 單個模型中的多任務學習。 多任務學習涵蓋的任務包括目標檢測、多標簽圖像分類和特征嵌入。 我們在實驗中選擇YOLOv4-CSP [15]作為基線模型,并在圖8中箭頭所指位置將隱式知識引入模型。所有訓練超參數都與ScaledYOLOv4 [15]的默認設置進行比較 。

      在 5.2、5.3 和 5.4 節中,我們使用了簡單的向量隱式表示和加法運算符來驗證引入隱式知識時對各種任務的積極影響。 在 5.5 節中,我們將對顯性知識和隱性知識的不同組合使用不同的算子,并討論這些組合的有效性。 在 5.6 節中,我們將使用不同的方法對隱性知識進行建模。 在 5.7 節中,我們分析了引入和不引入隱式知識的模型。 最后在第 5.8 節中,我們將使用隱式知識訓練目標檢測器,然后將性能與最先進的方法進行比較。

      5.2. FPN 的特征對齊

      我們在每個FPN的特征圖中加入隱式表示進行特征對齊,相應的實驗結果如表1所示。從表1的這些結果我們可以說:使用隱式表示進行特征空間對齊后,所有性能,包括 APS、APM、APL,提升了0.5%左右,是非常顯著的提升。

      5.3. 對象檢測的預測細化

      隱式表示被添加到 YOLO 輸出層以進行預測細化。 如表 2 所示,我們看到幾乎所有指標得分都得到了提高。 圖 9 顯示了隱式表示的引入如何影響檢測結果。 在目標檢測的情況下,即使我們沒有為隱式表示提供任何先驗知識,所提出的學習機制仍然可以自動學習每個錨的 (x, y)、(w, h)、(obj) 和 (classes) 模式 。

      5.4.多任務的規范表示

      當想要訓練一個可以被多個任務同時共享的模型時,由于必須執行損失函數的聯合優化過程,所以在執行過程中往往多方相互拉動。上述情況會導致最終的整體性能比單獨訓練多個模型然后集成它們更差。為了解決上述問題,我們建議為多任務訓練一個規范表示。我們的想法是通過在每個任務分支中引入隱式表示來增強表示能力,其造成的影響列于表 3 中。 如表 3 所示的數據,在不引入隱式表示的情況下,一些指標得分在多次迭代后有所提高。任務訓練,有的掉線了。將隱式表示引入聯合檢測與分類(JDC)后,在+iJDC對應的模型類別中,我們可以清楚地看到整體指標得分有了明顯的提升,已經超越了單任務訓練模型的表現。與未引入隱式表示時相比,我們的模型在中型物體和大型物體上的性能也分別提高了 0.3% 和 0.7%。在聯合檢測和嵌入(JDE)的實驗中,由于特征對齊隱含的隱式表示的特點,提高指標得分的效果更加顯著。在表3列出的JDE和+iJDE對應的指標得分中,+iJDE的所有指標得分都超過了沒有引入隱式表示的指標。其中,大型物體的AP甚至提升了1.1%。

      5.5.不同算子的隱式建模

      表4顯示了使用圖10所示的不同算子結合顯式表示和隱式表示的實驗結果。在特征對齊實驗的隱式知識中,我們看到加法和串聯都提高了性能,而乘法實際上降低了性能。特征對齊的實驗結果完全符合其物理特性,因為它必須處理全局偏移和所有單個簇的縮放。在預測細化實驗的隱性知識中,由于concatenation的算子會改變輸出的維度,所以我們只比較實驗中使用加法和乘法算子的效果。在這組實驗中,應用乘法的性能優于應用加法的性能。分析原因,我們發現center shift在執行預測時使用加法解碼,而anchor scale使用乘法解碼。由于中心坐標以grid為界,影響較小,人為設置的anchor擁有更大的優化空間,因此提升更顯著。

      基于上述分析,我們設計了另外兩組實驗-\left\{\times i \mathrm{FA}^{*}, \times i \mathrm{PR}^{*}\right\}。 在第一組實驗– \times i \mathrm{FA}^{*}中,我們將特征空間拆分為anchor cluster level 以進行乘法組合,而在第二組實驗– \times i \mathrm{PR}^{*} 中,我們僅對預測中的寬度和高度進行乘法細化。 上述實驗的結果如表5所示。從表5所示的數字可以看出,經過相應的修改后,各項指標的得分得到了全面的提升。 實驗表明,我們在設計如何組合顯隱知識時,首先要考慮組合層的物理意義,以達到事半功倍的效果。

      5.6. 以不同方式對隱性知識進行建模

      我們嘗試以不同的方式對隱性知識進行建模,包括向量、神經網絡和矩陣分解。 使用神經網絡和矩陣分解建模時,隱式先驗維度的默認值是顯式表示維度的兩倍。 這組實驗的結果如表6所示。我們可以看出,無論是使用神經網絡還是矩陣分解對隱含知識進行建模,都會提升整體效果。 其中,使用矩陣分解模型取得了最好的結果,將AP、AP50和AP75的性能分別提升了0.2%、0.4%和0.5%。 在這個實驗中,我們展示了使用不同建模方式的效果。 同時,我們確認了未來隱式表示的潛力。

      5.7. 隱式模型分析

      我們分析了帶/不帶/不帶隱含知識的模型的參數數量、FLOPs 和學習過程,結果分別如表 7 和圖 11 所示。 從實驗數據中我們發現,在帶有隱含知識實驗集的模型中,我們只增加了不到萬分之一的參數量和計算量,可以顯著提升模型的性能,訓練過程也可以 快速且正確地收斂。

      5.8. 物體檢測的隱性知識

      最后,我們將所提出方法的有效性與對象檢測的最新方法進行了比較。 引入隱式知識的好處如表8所示。對于整個訓練過程,我們遵循scaled-YOLOv4[15]訓練過程,即先從頭開始訓練300個epochs,然后微調150個epochs。 表 9 說明了與最先進方法的比較。 值得注意的一件事是,我們提出的方法沒有額外的訓練數據和注釋。 通過引入隱式知識的統一網絡,我們仍然獲得了足以匹配最先進方法的結果。

      6、結論 在本文中,我們展示了如何構建一個融合隱性知識和顯性知識的統一網絡,并證明它對于單一模型架構下的多任務學習仍然非常有效。 將來,我們會將訓練擴展到多模態和多任務,如圖 12 所示。

      神經網絡

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:搭建低代碼開發平臺的目的,低代碼開發平臺的優勢
      下一篇:wps引用在哪 wps怎么添加引用腳注
      相關文章
      亚洲国产精品成人精品无码区在线 | 亚洲啪啪免费视频| 亚洲精品无码永久在线观看男男| 亚洲五月六月丁香激情| 亚洲成a人片在线观看日本| 亚洲精品乱码久久久久久| 亚洲人成77777在线播放网站| 亚洲精品无码永久在线观看| 亚洲国产综合人成综合网站| 亚洲精品麻豆av| 国产亚洲精品看片在线观看| 国产亚洲?V无码?V男人的天堂| 久久精品亚洲男人的天堂| 国产av无码专区亚洲av果冻传媒| 亚洲综合伊人久久大杳蕉| 亚洲乱码无码永久不卡在线| 亚洲精品无码高潮喷水在线| 国产AV无码专区亚洲Av| 亚洲第一视频网站| 亚洲欧洲日本精品| 久久久久亚洲av无码专区喷水 | 国产成人精品日本亚洲直接| 色天使亚洲综合在线观看| 色偷偷女男人的天堂亚洲网| 亚洲欧美国产日韩av野草社区| 亚洲综合色丁香婷婷六月图片| 亚洲国产天堂久久综合| 亚洲AV无码乱码国产麻豆穿越| 国产亚洲精品AA片在线观看不加载| 亚洲精品黄色视频在线观看免费资源| 亚洲乱码国产一区网址| 国产成人精品日本亚洲网址| 亚洲男人在线无码视频| 亚洲综合久久夜AV | 亚洲深深色噜噜狠狠爱网站| 国产日韩亚洲大尺度高清| 亚洲中文字幕在线第六区| 亚洲 欧洲 视频 伦小说| 亚洲国产理论片在线播放| 亚洲狠狠色丁香婷婷综合| 亚洲国产人成精品|