ModelArts域適應算法EfficientMixGVB
域適應任務簡單介紹
為什么我用在重慶收集的汽車道路數據集訓練得到的車輛檢測模型,在杭州道路上識別效果變得很差?
為什么我用真實圖片訓練得到的人物識別模型,無法識別動漫人物圖像?
為什么我的算法訓練效果這么好,部署成推理服務之后,實際使用效果變差了?
在遷移學習中, 當源域和目標的數據分布不同 ,但兩個算法任務相同,這種特殊的遷移學習叫做域適應 (Domain Adaptation,DA )。幾乎所有算法在落地實際場景時都會遇到域適應問題。因為帶有標注的訓練數據集是很容易獲得的,我們訓練模型使用的都是這些數據,但是將模型應用到實際場景中的數據來源往往是不同的且沒有標注的。推理時的數據域與訓練時的數據域分布差異很大,就可能導致模型推理效果變差。
以車輛檢測模型為例,你在重慶收集汽車道路數據并精確標注后,訓練了一個車輛檢測模型,在重慶路上測試效果極好,但在杭州道路上就變得非常糟糕。重慶的道路高高低低,杭州道理相對平坦;重慶的出租車是黃色的,杭州的出租車是綠色的等,同樣動漫人物中的人形一般較為夸張、抽象、色彩鮮艷,與真實人形差別較大,你訓練的模型在這些場景下表現很差的原因是數據域發生了變化。
那怎么解決這類訓練數據域與測試數據域變化很大的問題呢?在視覺領域中已經提出了許多域適應方法來減少訓練數據域與測試數據域之間的差異。幾乎所有域適應方法都是讓模型同時訓練有標注的訓練數據和無標注的測試數據,包含了從模型結構出發改善兩個域之間差異的方法,也有生成具有測試數據域style的訓練數據的方法。
在改善數據域差異方面ModelArts已經推出了:無監督數據域遷移算法。
本文介紹ModelArts在圖像分類領域中模型結構方面改善兩個域之間差異的算法:EfficientMixGVB ,該算法在多個公開數據集上超越了現有的域適應算法。
ModelArts域適應算法:EfficientMixGVB
域適應算法流程
在域適應算法中
您需要準備兩個數據集,一個是有標簽的源域訓練集,一個是無標簽的目標域訓練集 ;
域適應模型接受到兩個數據集,使用域適應算法結構優化分類模型;
訓練完成后,得到已經適應目標域數據的分類模型,可用于ModelArts在線推理;
算法使用
按照數據集創建文檔,創建源域數據集和目標域數據集,其中源域數據集是有標注的,目標域是無標注數據集(即使有標注也忽略,如果部分圖像有標注,建議導入源域數據集中,提高模型精度)。
在AI市場中選擇EfficientMixGVB算法并訂閱
創建EfficientMixGVB算法作業:選擇算法管理中剛訂閱的算法,點擊創建訓練作業
在創建訓練作業界面選擇源域目標域數據集,以及其他參數即可啟動訓練作業。
實驗結果
包含了31類的數據,全部是Office的數據,數據來源為A(Amazon), W(Webcam) 和D(DSLR),
在幾乎所有以office-31為實驗數據的域適應相關論文中,目標域數據集既用于無監督訓練也用于最后的模型測試,這樣無法嚴謹地保證模型具有足夠好的泛化性 。于是在本次實驗中,我們將目標域數據集1:1隨機切分為目標域數據集和測試集,目標域數據集用于無監督訓練,測試集用于最終的精度測試。
visda-2019圖像分類-多源域適應競賽 包含了6個域的數據集:clipart(剪貼畫圖像的集合)、infograph(具有特定對象的信息圖圖像)、painting(以繪畫形式對物體的藝術描繪)、quickdraw(快速繪畫)、real(照片和真實世界圖像)、sketch(特定對象的草圖),均包含了344個相同的類。下圖為圖像示例,每行代表了一個域,每列代表一個類別。
本次實驗使用sketch(特定對象的草圖)作為訓練集(源域),將clipart(剪貼畫圖像的集合)中一半數據用于無標簽目標域的訓練,一半作為測試集。最終的測試結果如下:
lego數據集來自一個機械臂項目,機械臂會判斷當前桌上的lego屬于哪個類別(4孔藍色,2、3、4孔紅色、3、4孔綠色,3、4孔橙色等),源域lego_1是實驗室訓練時自行采集的數據集,目標域lego_2是項目實際展示時場館采集的數據集。
本次實驗使用源域lego_1作為訓練集,將目標域lego_2即用作無標簽目標域的訓練也作為測試集。最終的測試結果如下:
結合公開數據集visda2019上的實驗,CAN算法只在office-31上表現較好,但是在其他數據集上表現均比較差,泛化性能存在問題。我們的EfficientMixGVB算法不管是高性能還是高精度變種,泛化性能均表現良好,精度相比其他算法優勢也很大。
AI開發平臺ModelArts EI智能體 AI AI平臺 通用AI
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。