亚洲小说图区综合在线,西西人体44rt高清亚洲,亚洲成年人电影网站

網友投稿 1092 2022-05-29

為幫助企業在AI落地過程中進一步實現降本增效，華為云推出AI黑科技——彈性訓練。

今年，AI界最被熱議的當屬OpenAI最新發布的GPT-3模型，作為迄今為止發布的最大自然語言處理（NLP）轉換器，它的模型參數有1750億個，使用了45TB的數據，算力要求為3640pfs-day，訓練費用高達1200萬美金。

如果AI開發者想要使用大數據來訓練模型，就需要超強的算力，同時不得不支付高昂的訓練費用。這就導致AI進入產業的門檻變高，開發者想要做出優秀的AI模型就不得不在算力和成本之間折中。

一方面，在預算投入有限的情況下，AI開發者只能使用較弱的算力，從而造成AI服務開發的滯后。另外一方面，對于云廠商來說，由于用戶使用時間和規模的靈活性，經常會存在空閑的計算資源沒有被使用，造成浪費。華為云AI黑科技彈性訓練動態縮減和擴展節點，很好地解決了AI開發者算力不足和云廠商算力空閑的矛盾。

靈活調配算力資源，彈性訓練為AI開發降本增效

華為云彈性訓練方案實時監控資源池的算力情況，如果有空閑的計算資源，會把該資源分配給正在訓練中的彈性作業，提高該訓練作業的算力，從而使該訓練作業快速收斂。在有新任務提交時，華為云彈性訓練方案又會根據資源池空閑資源和彈性作業的使用情況，把資源回收后給新起的任務，保證新的訓練的快速效應。

彈性訓練流程

彈性訓練可以根據模型訓練速度的要求，自適應匹配最佳資源數。具體在產品上，它提供兩種模式。

一是Turbo模式，可以充分利用空閑資源加速已有訓練作業，在大多數典型場景下加速效率大于80%，訓練速度提升10倍，并且不會影響模型收斂精度。

二是Economic模式，可以通過最大化資源利用率，給開發者提供極致的性價比，在大多數典型場景下可以提升性價比30%以上。

工程和算法多個維度優化，降低模型訓練難度

華為云彈性訓練方案需要解決多個復雜的分布式訓練問題：如何實現動態多次彈性后訓練的收斂過程和收斂結果和普通非彈性訓練等價一致、如何保證彈性過程中優雅切換、如何解決混部等場景中straggler拖累系統性能、如何使用戶減少代碼修改、如何選擇合適的通信框架從而減少梯度匯聚時間。華為云彈性訓練方案從工程和算法多個維度進行優化，解決了上述問題，實現了訓練的準確率不降低、加速比理想。

具體來說，華為云彈性訓練方案具有易用、高效、優雅的訓練框架和等價的訓練過程，普惠的強大算力、高利用率的云資源四大優勢。

易用、高效、優雅的訓練框架

華為云的彈性訓練基于易用高效的訓練框架，用戶只需要根據要求，簡單的修改代碼，就可以滿足彈性訓練的要求。

彈性訓練框架支持NCCL通信，支持all_reduce或點對點的組網模式，可以高效的進行梯度聚合，因此有很好的加速性能。

同時，它也支持多GPU/NPU性能監控，支持基于每個GPU/NPU的性能進行訓練負載動態調整，在混部等多GPU/NPU性能不均衡的場景下，依然具有很好的性能。

除此之外，彈性訓練框架可以保證彈性過程是優雅的。彈性訓練過程中涉及到節點數的變多和變少。在節點數變多時，它可以保證老節點在新節點切入前正常訓練，新節點在準備好平滑的切入訓練，因此不需要老節點長時間等待。在節點數變少時，彈性訓練框架可以讓釋放的節點平滑退出。

等價的訓練過程

彈性訓練過程節點數是動態變化的，在彈性的動態過程中如何調整訓練超參，保證模型的收斂是一個巨大的挑戰。華為云的彈性訓練方案在理論上可以保證，在初始設置正確的訓練超參后，節點在彈性過程中變多或變小時，訓練的模型的收斂過程和結果是一致的。因此用戶在使用訓練方案時，不需要因為彈性而引入過于復雜的超參調整策略，另外也不需要擔心彈性的引入對收斂結果造成影響。等價訓練過程讓用戶可以放心的使用彈性訓練。

普惠的強大算力

ModelArts黑科技揭秘|彈性訓練，讓訓練資源張弛有度

相比傳統的直接購買確定的算力方案，AI開發者在投入很少的情況下，可以獲得巨大的算力。用戶提起彈性訓練作業后，在訓練過程中可以獲得華為云中空閑的運算資源，算力迅速增強，因此在較短的時間內就可以把訓練跑完，從而實現高頻的訓練迭代、快速的服務上線變現。彈性方案真正讓用戶實現了用得起。

高利用率的云資源

傳統的資源強化定制方案，導致無法盤活空閑資源，不能根據實時資源使用情況，動態調整已經訓練的作業。因此在傳統方案中，經常會出現訓練任務算力不足、耗時漫長的同時資源池中大量資源閑置的矛盾局面。

相比之下，華為云彈性訓練方案具有極大的靈活性。基于彈性訓練方案，華為云實時監控資源池中資源的情況，動態調整彈性訓練作業的算力情況，當資源池中有空閑資源時，就將空閑資源分配給訓練作業，保證資源的充分利用。

在彈性方案確定后，華為云的彈性訓練方案自動監控調整，無需人為參與，方便高效。該方案滿足了云服務商充分利用算力資源的需求和AI開發者的訴求，實現了雙贏。

彈性訓練方案應用前景廣闊

隨著數據的爆發式增長，AI進入行業當中越發需要大算力的支撐來處理大數據。未來，彈性訓練方案具有廣闊的應用空間。使用華為云的彈性訓練方案在ImageNet（大型可視化數據庫）上訓練resent50模型。在開始時使用1節點訓練模型，在有空閑資源后，將訓練節點調整為16，此時的線性加速比為10。在訓練60個epoch后top1 accuracy為76.1%。精度保持一致的情況下，華為云的彈性訓練方案使收斂速度快了9倍。

華為云一直秉持著“將簡單留給開發者，復雜留給華為云”的理念。華為云AI不斷迭代創新，推出黑科技功能，加速AI進入產業，落地實際場景，讓千行百業共享AI技術紅利。

網絡】彈性云服務器ECS搭建FTP服務實踐-華為云">【網絡】彈性云服務器ECS搭建FTP服務實踐-華為云

1092 2022-05-29

Verilog HDL 訓練】第 03 天">【Verilog HDL 訓練】第 03 天

1092 2022-05-29

Verilog HDL 訓練】第 12 天（數據通路）">【Verilog HDL 訓練】第 12 天（數據通路）

1092 2022-05-29

ModelArts黑科技 揭秘|彈性 訓練，讓訓練資源張弛有度

網絡】彈性云服務器ECS搭建FTP服務實踐-華為云">【網絡】彈性云服務器ECS搭建FTP服務實踐-華為云

Verilog HDL 訓練】第 03 天">【Verilog HDL 訓練】第 03 天

Verilog HDL 訓練】第 12 天（數據通路）">【Verilog HDL 訓練】第 12 天（數據通路）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接