華為云田奇:云原生時代,視覺預訓練大模型探索與實踐

近日,在Qcon全球軟件開發大會(深圳站)上,華為云人工智能領域首席科學家、IEEE FELLOW田奇博士,作了題為“云原生時代,視覺預訓練大模型探索與實踐”的主題演講,介紹了云原生時代華為云在AI基礎研究、視覺預訓練模型研發和行業實踐,以及AI開發平臺ModelArts的最新進展。
以下是田奇博士演講要點:
隨著企業數字化的轉型,傳統企業已基本上將業務從線下搬到了云上。其中,第一個階段是將企業的業務簡單地部署到云上,我們可以稱之為ON CLOUD,在這種形態下,通過資源池化,解決了IDC時代運維、部署、擴容的難題。但是,傳統方法的過于厚重、煙囪式的架構,導致云對業務的價值還僅僅停留在資源供給階段,未充分發揮出云計算的潛力。隨著企業的數字化建設逐步邁入智能化階段,企業需要充分利用云計算帶來的紅利,就需要讓其業務能力內生于云,由現在的ON CLOUD進階到IN CLOUD階段,即基于云的技術架構來構建企業業務,通過構建多云、多中心的分布式架構以及敏捷、智能的企業數字化業務,將企業的數字化建設帶入智能化新階段。此時,云對業務的價值不再是簡單的資源供給,還能夠以應用為中心,為業務賦能。
一站式AI開發平臺,加速行業AI落地,踐行普惠AI
華為云提供了一站式的AI開發平臺,加速行業AI落地,踐行普惠AI。華為云對AI平臺打造了四層體系,第一層是智能體;第二層是知識計算解決方案;第三層是ModelArts Pro,針對專業應用開發套件;第四層是ModelArts Fundamental。對于一站式的AI開發平臺,主要聚焦在模型高效、數據高效以及知識高效。這些強大的AI服務,底層都是基于云原生容器的Volcano高效能調度引擎,而Volcano調度引擎將訓練任務的效率提升了50%。
華為云AI基礎研究進展
華為云長期扎根AI技術基礎研究,在計算機視覺、語音語義、決策優化三個方向做了深入探索與研究。為此,我們針對數據、模型和知識提出了六個子計劃。其中,針對模型包含兩個計劃,一個是針對大模型的模型摸高計劃,提供極致的性能;第二是針對小模型的模型瘦身計劃。針對數據提出了兩個計劃,一個是處理多模態的數據魔方計劃;另一個是針對小樣本學習的數據冰山計劃。最后針對知識的高效提取,我們提出了兩個計劃:建造通用AI系統的萬物預視計劃以及學習一種新范式的虛實合一計劃。在這些計劃中,我們始終聚焦在模型高效、數據高效、知識高效等重點方向上。對于自主研發的一些新技術,比如自動學習、知識蒸餾、預訓練模型等等,都會以即插即用的方式部署到華為云線上,助力AI行業落地。
在眾多AI領域中,計算機視覺具有廣泛的落地場景,在智能汽車、智能手機、無人機、智能眼鏡等應用都有計算機視覺算法的身影。這些年隨著計算能力和5G通信技術的極大提高,以計算機視覺為代表的大批AI技術,已跨越了早期僅在研究領域取得進展的階段,過渡到了與社會環境協同發展、共同促進的階段。未來視覺AI技術會在千行百業進行落地,比如政府、醫療、工業、能源、交通、物流、金融等等。但是,技術落地也面臨著巨大的挑戰,由于AI應用的碎片化、定制化等因素,極大地限制了AI在真實環境下的落地部署。為了解決應對AI碎片化等問題,我們提出了預訓練大模型的解決方案,希望能用大量無標注的數據和更大的模型來實現更通用的AI系統。
在自然語言處理領域,這兩年大規模預訓練模型取得了突破性進展,但是預訓練模型對算力有極大的需求,而且我們預計更大規模、更大參數的模型還會繼續出現。因此,受到自然語言處理中預訓練模型的啟發,在計算機視覺中我們也希望構建通用的AI系統,為下游各種視覺任務提供一個高效的初始化模型。
現在主流的學習方式有兩種,一種是監督學習,一種是強化學習。監督學習需要海量標注樣本,泛化能力相對比較弱,另一種是強化學習,強化學習需要海量的試錯,同樣缺乏通用系統所需要的可適用性、可重復性以及魯棒性。我們認為,自監督學習是邁向常識學習的關鍵步驟,但是目前自監督學習在視覺任務中的應用還不夠成熟。過去,在數據標注、模型訓練和輸出階段,分別要做大量的重復工作。未來,我們希望可以對計算機視覺或者自然語言處理任務構建一個通用預訓練模型,僅通過下游少量的標注樣本進行微調就可以高效完成任務,從而大量節約開發成本。
視覺預訓練大模型研究和實踐
接下來的報告,我會介紹一下我們在預訓練模型方面的工作,主要是在自監督學習過程中預訓練模型的一些進展。
自監督學習由于不需要任何人工標注便能夠學習圖像的內在表征,近年來受到了業界的極大關注。在沒有人工標注的情形下,自監督學習需要預先設定一些預訓練任務輔助模型學習。2016年以前,一些預訓練任務推動該領域出現了一些大的進展。自監督學習主要分為兩種,一種是生成式,一種是對比式,近幾年最新的一些工作大多是基于實例區分的對比學習。
基于實例區分的對比自監督學習在最近幾年取得了極大的進展,在一些任務上刷新了現有自監督預訓練任務的SOTA結果。最近我們在對比自監督學習方面有兩項優化工作,首次實現了在ImageNet線性分類任務中達到全監督基線性能,并且在小樣本分類上大大超越了之前的方法。然而,現有的自監督預訓練模型仍然處于探索階段,存在大量的問題未能夠解決:現有的自監督預訓練算法迭代緩慢,很難復制到大模型以及超大規模數據集;另外,相較于全監督學習,其特征表達在大多數下游任務上僅僅能獲得與之相比擬的結果,其進一步的性能優勢還有待挖掘。因此,如何利用自監督學習在超大數據集合,超大模型上獲取更強的泛化性能將會是未來的發展方向。
在這里,介紹一下我們最新的幾個工作,在對比自監督學習框架下,我們提出了基于鄰域保持的混合圖像增強,在業界首次提出了利用不同圖像數據增強策略提升其泛化性能。過去,對比學習通常利用同一樣本的不同數據增強生成正樣本集合,并且把其他樣本均視為負樣本的策略,將樣本特征的距離拉近或者拉遠作對比學習任務,而我們首次提出了選取不同正樣本的方法。同時,提出了基于局部領域混合增強的技術,把多個相似樣本的特征拉近,不同樣本的距離拉遠。我們的方法在ImageNet線性分類評估上,TOP-1的精度達到了75.5%準確率,離監督學習基線76.5%僅僅差了1個百分點。通過對預訓練模型在小樣本標注數據上進行微調(1%和10%標注的數據),我們的精度達到了最好的結果。
接下來介紹一個我們今年剛剛完成的工作,基于等級化語義聚集的對比自監督學習框架。在上述工作的基礎上,我們進一步發現即使顯示地拉近語義相似性樣本,特征表達的可分離特性并沒有達到我們的預期目標,這限制了其泛化表征能力。自監督學習仍然存在優化困難,收斂速度慢等問題,為此,我們做了兩點改進,第一,我們拓展了自監督學習算法中正樣本數目,使得正樣本集合能夠更加高效的被聚集,同時避免受大量負樣本優化的影響。第二,我們在淺層特征上引入對比自監督學習,通過精心設計的淺層優化目標加速訓練過程,在淺層特征上實現了更好的可分離性,我們發現這些優勢對小樣本學習有極大的提升。從結果來看,我們在線性分類任務中達到了76.4%的精度,首次達到了和全監督基線相比擬的性能,而且通過將預訓練模型在小樣本標注數據上進行微調,在之前的結果上又得達到了新的SOTA,特別地,僅僅使用10%標注,我們在ImageNet 分類上達到了75.1%的TOP-1精度。
上述兩項工作都是在沒有任何標簽設置下完成的,更進一步,我們探索了如何把對比學習和數據標簽高效地結合起來,通過引入圖像真實標簽來輔助對比學習,我們認為應該將自監督學習得到的表觀特征和監督學習的語義特征相結合,它的本質是把表觀相似和語義相似的樣本距離拉近,將不相似樣本的距離推遠。從結果上看,這個工作在各個下游工作中(比如檢測、語義分割、實例分割)的表現全面超越了以往的自監督和全監督的泛化能力。
華為云的第二個核心研究方向是如何設計高效的視覺識別模型,即模型高效。在這個方向主要聚焦兩個方面,第一是如何設計神經網絡模型,第二是在神經網絡架構搜索中,如何在原子算子層面上進行搜索。關于神經網絡模型設計,最初的方式都是手工設計的,這種方式經過高速發展后,也進入了一個瓶頸,因此從2017年開始,自動的神經網絡架構搜索經歷了一個迅猛發展的過程,也取得了一些可喜的成績。但是搜索出的網絡也面臨幾個問題,第一個問題,搜索空間仍然是手工定義的;第二個,搜索的卷積算子是人工定義的,而且相比于手工設計的網絡,搜索的網絡可遷移性也是比較差的。
我們在網絡架構搜索上第一個工作是P-DARTS,提出漸進的可微分網絡架構搜索算法。之前的網絡架構搜索面臨著搜索網絡和測試網絡深度不一樣的問題,在較淺的搜索網絡中搜索出來的架構并不適合較深的測試網絡。早期的方法直接加深搜索的深度,但是會造成顯存爆炸的問題,并且導致搜索不穩定。為了解決這個問題,我們提出了兩個思想,一個是搜索空間近似,第二個是搜索正則化。搜索空間近似,是指采用漸進搜索策略,逐漸加深搜索的深度;同時進行鏈接權重的學習,把權重比較小的鏈接運算都扔掉,這樣減少了搜索空間。搜索正則化主要是對搜索得到的一些skip connect的數量上的限制。從結果上看,我們把P-DARTS搜索的網絡遷移到ImageNet上,在ImageNet分類任務上與基線方法相比提高了兩個百分點。P-DARTS網絡搜索算法是在P100上完成的,大概需要0.3個GPU-days。與去年同期的DARTS工作進行大致的比較,它的搜索時間是4個GPU-days,而在性能和速度都有超越的情況下,我們的方法只需要0.3個GPU-days。我們在架構搜索上的第二個工作是PC-DARTS,這是業界搜索速度最快的網絡架構方法之一,其主要思想有兩個,一個是采用局部連接的思想來解決網絡冗余的問題,第二個是采用邊正則化的思想來解決網絡搜索穩定性的問題。并且,這個工作首次在大規模圖像數據集ImageNet上進行了神經網絡架構搜索。
我們最新的一個相關工作是GOLD-NAS,漸進剪枝的單階段可微分搜索算法。這個算法主要的一個貢獻是它打破了傳統可微分搜索空間的諸多限制,因此大大增加了搜索空間的容量,并提出了單階段優化策略和漸進剪枝的優化策略。從結果上看,在擴大的搜索空間中,算法不僅能夠找到絕對性能更強的網絡,也能找到具有更高性價比的網絡。
我們第四個工作是卷積搜索,提出對卷積操作進行搜索,當前的模型搜索都是采用一些固定的卷積操作,比如1×1、3×3的卷積,這種方式限制了模型的性能。因此,為了將卷積的設計也納入搜索的范圍,這個工作提出了針對點云任務的基于數據驅動的模型搜索,同時對卷積的結構也進行了搜索,將來將進一步擴展到傳統的圖像領域。
我們最近兩年在計算機視覺三大頂會CVPR、ICCV、ECCV大概發表了近百篇文章,基本進入視覺研究領域第一梯隊,極大地提高了華為在計算機視覺領域的國際競爭力,同時有一些工作也獲得了最佳論文和最佳論文提名。而且最新的算法已經逐漸部署到華為的一站式AI開發平臺,在一些行業得到了廣泛的應用,下面再介紹一下視覺任務的進展和在行業的實踐。
第一個進展是圖像分類技術,在ImageNet上,今年我們的分類準確率達到了85.8%,而之前谷歌最好的精度是85.5%。從今年3月份以來,我們在這方面一直保持著領先水平。
第二個進展是弱標注場景下的圖像分類技術。在WebVision大規模弱標注的網絡圖像分類比賽中,大約有5000個類別的1600萬張圖像,有90多支參賽隊伍競爭,華為云在分類準確率上取得了業界第一的水平。我們把圖像分類技術應用到了一些傳統行業,比如米旗蛋糕店。結果上看,我們的技術讓商品整盤識別率達到了99%以上的精度。另外,我們的模型訓練時間小于一天,因此每天都可以進行模型更新,商品的識別時間也小于1秒。
第三個進展是圖像檢測、分割技術,在業界權威的目標檢測數據集MS-COCO數據集上,不論是單模型還是多模型,我們都取得了今年業界第一的成績。我們將檢測、分割技術用到了醫療智能體,在今年新冠肺炎AI-CT輔助篩查中實現了自動智能檢測,而且已經在各大醫院成功部署。
我們第四個進展是多模態數據處理技術,相對于單模態,多模態具有天然的互補優勢,比如在無人駕駛中除了圖像的輸入,還有激光雷達信號、GPS、圖像分割的數據。在最權威的三維目標檢測NuScenes數據上,我們提出的技術也取得了非常好的成績,我們的結果比第二名領先了3.1%。同時我們將多模態處理技術用在了深圳交通智能體上,實現對紅綠燈控制的智能化,在交通總量相同的情況下將平均通行車速提高了15%,將平均等待時間、延誤時間下降了17.7%。
最后介紹一下華為云一站式AI開發管理平臺ModelArts。ModelArts有兩個不同層次的版本,一個是ModelArts Fundamental,一個是ModelArts Pro。根據華為云在十多個行業常年的技術積累,ModelArts Pro開發平臺主要提供五大類的專業應用開發套件,包括文字識別套件、視覺套件、知識圖譜套件、多模態開發套件、自然語言處理套件,還提供了四十多個行業級的高精度預置的算法, 包含數據準備、數據處理、 模型設計、模型管理及部署等等。
以上是華為云在視覺預訓練模型上的一些基礎研究最新進展和行業實踐的案例,以及在華為云AI開放平臺沉淀的一些工作。謝謝!
AI AI開發平臺ModelArts EI企業智能
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。