ModelArts黑科技揭秘|彈性訓練,讓訓練資源張弛有度

      網友投稿 1092 2022-05-29

      為幫助企業在AI落地過程中進一步實現降本增效,華為云推出AI黑科技——彈性訓練。

      今年,AI界最被熱議的當屬OpenAI最新發布的GPT-3模型,作為迄今為止發布的最大自然語言處理(NLP)轉換器,它的模型參數有1750億個,使用了45TB的數據,算力要求為3640pfs-day,訓練費用高達1200萬美金。

      如果AI開發者想要使用大數據來訓練模型,就需要超強的算力,同時不得不支付高昂的訓練費用。這就導致AI進入產業的門檻變高,開發者想要做出優秀的AI模型就不得不在算力和成本之間折中。

      一方面,在預算投入有限的情況下,AI開發者只能使用較弱的算力,從而造成AI服務開發的滯后。另外一方面,對于云廠商來說,由于用戶使用時間和規模的靈活性,經常會存在空閑的計算資源沒有被使用,造成浪費。華為云AI黑科技彈性訓練動態縮減和擴展節點,很好地解決了AI開發者算力不足和云廠商算力空閑的矛盾。

      靈活調配算力資源,彈性訓練為AI開發降本增效

      華為云彈性訓練方案實時監控資源池的算力情況,如果有空閑的計算資源,會把該資源分配給正在訓練中的彈性作業,提高該訓練作業的算力,從而使該訓練作業快速收斂。在有新任務提交時,華為云彈性訓練方案又會根據資源池空閑資源和彈性作業的使用情況,把資源回收后給新起的任務,保證新的訓練的快速效應。

      彈性訓練流程

      彈性訓練可以根據模型訓練速度的要求,自適應匹配最佳資源數。具體在產品上,它提供兩種模式。

      一是Turbo模式,可以充分利用空閑資源加速已有訓練作業,在大多數典型場景下加速效率大于80%,訓練速度提升10倍,并且不會影響模型收斂精度。

      二是Economic模式,可以通過最大化資源利用率,給開發者提供極致的性價比,在大多數典型場景下可以提升性價比30%以上。

      工程和算法多個維度優化,降低模型訓練難度

      華為云彈性訓練方案需要解決多個復雜的分布式訓練問題:如何實現動態多次彈性后訓練的收斂過程和收斂結果和普通非彈性訓練等價一致、如何保證彈性過程中優雅切換、如何解決混部等場景中straggler拖累系統性能、如何使用戶減少代碼修改、如何選擇合適的通信框架從而減少梯度匯聚時間。華為云彈性訓練方案從工程和算法多個維度進行優化,解決了上述問題,實現了訓練的準確率不降低、加速比理想。

      具體來說,華為云彈性訓練方案具有易用、高效、優雅的訓練框架和等價的訓練過程,普惠的強大算力、高利用率的云資源四大優勢。

      易用、高效、優雅的訓練框架

      華為云的彈性訓練基于易用高效的訓練框架,用戶只需要根據要求,簡單的修改代碼,就可以滿足彈性訓練的要求。

      彈性訓練框架支持NCCL通信,支持all_reduce或點對點的組網模式,可以高效的進行梯度聚合,因此有很好的加速性能。

      同時,它也支持多GPU/NPU性能監控,支持基于每個GPU/NPU的性能進行訓練負載動態調整,在混部等多GPU/NPU性能不均衡的場景下,依然具有很好的性能。

      除此之外,彈性訓練框架可以保證彈性過程是優雅的。彈性訓練過程中涉及到節點數的變多和變少。在節點數變多時,它可以保證老節點在新節點切入前正常訓練,新節點在準備好平滑的切入訓練,因此不需要老節點長時間等待。在節點數變少時,彈性訓練框架可以讓釋放的節點平滑退出。

      等價的訓練過程

      彈性訓練過程節點數是動態變化的,在彈性的動態過程中如何調整訓練超參,保證模型的收斂是一個巨大的挑戰。華為云的彈性訓練方案在理論上可以保證,在初始設置正確的訓練超參后,節點在彈性過程中變多或變小時,訓練的模型的收斂過程和結果是一致的。因此用戶在使用訓練方案時,不需要因為彈性而引入過于復雜的超參調整策略,另外也不需要擔心彈性的引入對收斂結果造成影響。等價訓練過程讓用戶可以放心的使用彈性訓練。

      普惠的強大算力

      ModelArts黑科技揭秘|彈性訓練,讓訓練資源張弛有度

      相比傳統的直接購買確定的算力方案,AI開發者在投入很少的情況下,可以獲得巨大的算力。用戶提起彈性訓練作業后,在訓練過程中可以獲得華為云中空閑的運算資源,算力迅速增強,因此在較短的時間內就可以把訓練跑完,從而實現高頻的訓練迭代、快速的服務上線變現。彈性方案真正讓用戶實現了用得起。

      高利用率的云資源

      傳統的資源強化定制方案,導致無法盤活空閑資源,不能根據實時資源使用情況,動態調整已經訓練的作業。因此在傳統方案中,經常會出現訓練任務算力不足、耗時漫長的同時資源池中大量資源閑置的矛盾局面。

      相比之下,華為云彈性訓練方案具有極大的靈活性。基于彈性訓練方案,華為云實時監控資源池中資源的情況,動態調整彈性訓練作業的算力情況,當資源池中有空閑資源時,就將空閑資源分配給訓練作業,保證資源的充分利用。

      在彈性方案確定后,華為云的彈性訓練方案自動監控調整,無需人為參與,方便高效。該方案滿足了云服務商充分利用算力資源的需求和AI開發者的訴求,實現了雙贏。

      彈性訓練方案應用前景廣闊

      隨著數據的爆發式增長,AI進入行業當中越發需要大算力的支撐來處理大數據。未來,彈性訓練方案具有廣闊的應用空間。使用華為云的彈性訓練方案在ImageNet(大型可視化數據庫 )上訓練resent50模型。在開始時使用1節點訓練模型,在有空閑資源后,將訓練節點調整為16,此時的線性加速比為10。在訓練60個epoch后top1 accuracy為76.1%。精度保持一致的情況下,華為云的彈性訓練方案使收斂速度快了9倍。

      華為云一直秉持著“將簡單留給開發者,復雜留給華為云”的理念。華為云AI不斷迭代創新,推出黑科技功能,加速AI進入產業,落地實際場景,讓千行百業共享AI技術紅利。

      AI

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:開天篇——淺說《蒙特卡洛算法》
      下一篇:linux筆記:一網打盡常用命令
      相關文章
      亚洲国产精品不卡毛片a在线| 亚洲国产成人手机在线电影bd| 久久亚洲国产精品123区| 午夜影视日本亚洲欧洲精品一区| 精品亚洲视频在线观看| 亚洲丶国产丶欧美一区二区三区| 亚洲精品福利在线观看| 国产AV无码专区亚洲AV男同 | 亚洲综合久久成人69| 亚洲AV无码国产精品麻豆天美| 亚洲国产精品人人做人人爱| 亚洲A∨精品一区二区三区| 色偷偷亚洲女人天堂观看欧| 久久精品国产亚洲| 精品国产亚洲一区二区三区| 99亚洲男女激情在线观看| 亚洲色大情网站www| 亚洲AV无码一区二区三区在线| 亚洲成人黄色在线观看| 亚洲综合成人网在线观看| 国产亚洲福利精品一区| 亚洲精品乱码久久久久久蜜桃不卡 | 亚洲成av人片在线观看天堂无码| 一本色道久久88—综合亚洲精品| 久久精品国产亚洲αv忘忧草| 亚洲综合久久久久久中文字幕| 亚洲AV美女一区二区三区| 五月天网站亚洲小说| 亚洲一区无码中文字幕| 亚洲真人日本在线| 亚洲真人日本在线| 久久亚洲国产精品五月天婷| 国产偷国产偷亚洲高清日韩| jlzzjlzz亚洲乱熟在线播放| 亚洲精品国产电影| 国产成人精品曰本亚洲79ren| 国产成人精品久久亚洲| 亚洲一区精品无码| 亚洲狠狠婷婷综合久久久久| 亚洲国产精品无码久久一区二区| 亚洲成AV人在线观看天堂无码|