華為云 AI 容器:零基礎(chǔ)搭建 AI 計(jì)算平臺(tái),提升計(jì)算效率 50%
如今,企業(yè)的數(shù)字化轉(zhuǎn)型和智能升級(jí)必談 AI,AI 在人們?nèi)粘I畹闹械漠a(chǎn)品和應(yīng)用也隨處可見(jiàn),如智能音箱、AI 相機(jī)、人臉支付等。

但是,爆炸式增長(zhǎng)的數(shù)據(jù)量、復(fù)雜的訓(xùn)練框架和算法,讓很多企業(yè)現(xiàn)有的 AI 計(jì)算平臺(tái)變得捉襟見(jiàn)肘:計(jì)算效率無(wú)法滿足業(yè)務(wù)增加訴求,運(yùn)營(yíng)運(yùn)維成本也居高不下。
華為云 AI 容器為客戶提供更高性價(jià)比的算力,更簡(jiǎn)化了平臺(tái)運(yùn)維,提升 AI 計(jì)算效率 50%,加速了 AI 計(jì)算在各行業(yè)的落地和發(fā)展。
計(jì)算量 6 年增長(zhǎng) 30 萬(wàn)倍 AI 平臺(tái)擴(kuò)容成本高
OpenAI 分析報(bào)告顯示,從 2012 至 2018 年的 6 年時(shí)間,AI 訓(xùn)練使用的算力增長(zhǎng)了 30 萬(wàn)倍,是同時(shí)期摩爾定律增長(zhǎng)量的 5 倍。
這意味著,要保持計(jì)算速度不變,不能單單依靠芯片能力的升級(jí),還必須增加計(jì)算設(shè)備投入。而專業(yè) GPU 服務(wù)器配以高速網(wǎng)絡(luò)、高速存儲(chǔ)等設(shè)備,單臺(tái)平均成本在 100 萬(wàn)左右,價(jià)格高昂,大部分企業(yè)難以承擔(dān)。
系統(tǒng)日趨復(fù)雜 AI 平臺(tái)運(yùn)維難度激增
首先,不同的業(yè)務(wù)需要不同的 AI 訓(xùn)練框架、模型、加速庫(kù),如何在統(tǒng)一平臺(tái)上管理不同的訓(xùn)練框架和模型,如何將線下訓(xùn)練快速部署到生產(chǎn)環(huán)境帶來(lái)巨大挑戰(zhàn)。
其次,AI 訓(xùn)練和公司業(yè)務(wù)使用不同的資源管理工具,使得運(yùn)維團(tuán)隊(duì)需要掌握和使用多種資源管理工具,保障 GPU 利用率,增加運(yùn)維復(fù)雜度。
再者, GPU 在集群內(nèi)被不同業(yè)務(wù)團(tuán)隊(duì)共享,團(tuán)隊(duì)間的資源協(xié)調(diào)也會(huì)耗費(fèi)不少精力。
公有云 + 容器化:AI 計(jì)算平臺(tái)建設(shè)的必選之路
面對(duì)上述問(wèn)題,各企業(yè)開(kāi)始著手構(gòu)建基于公有云和容器的 AI 計(jì)算平臺(tái),基于公有云的容器平臺(tái),能給客戶帶來(lái)什么樣的好處呢?
更快速的獲取算力資
面對(duì) AI 計(jì)算需要的超大規(guī)模算力,自建 IDC 擴(kuò)容周期長(zhǎng)、一次性投入大,后期維護(hù)成本高,采用公有云,可以即申請(qǐng)即用,快速補(bǔ)充企業(yè) IDC 算力的不足,同時(shí)具備更低的使用成本、無(wú)需關(guān)注基礎(chǔ)設(shè)施維護(hù)、避免資源閑置造成浪費(fèi)等優(yōu)勢(shì),成為了客戶擴(kuò)充算力的最佳選擇。
降低日常使用和運(yùn)維難
用戶搭建深度學(xué)習(xí)訓(xùn)練環(huán)境,需要準(zhǔn)備帶 GPU 的機(jī)器、安裝 Python、TensorFlow、GPU 驅(qū)動(dòng)等,如果要從開(kāi)發(fā)環(huán)境到測(cè)試環(huán)境,再?gòu)臏y(cè)試環(huán)境到生成環(huán)境,涉及環(huán)境遷移過(guò)程中需要花很大精力來(lái)保證環(huán)境的一致性。
容器帶來(lái)的標(biāo)準(zhǔn)化打包能力可以提供了絕佳的解決方案,將相關(guān)軟件一并打包到鏡像中,一次構(gòu)建,即可在不同平臺(tái)上運(yùn)行,極大降低安裝、部署的復(fù)雜度;同時(shí)各容器間相互隔離,可實(shí)現(xiàn)多訓(xùn)練框架并存,而且每一個(gè)框架都可以獨(dú)立進(jìn)行升級(jí)而不會(huì)影響其他業(yè)務(wù),降低的日常運(yùn)維的難度,讓客戶可以將更多的 精力集中在 AI 訓(xùn)練上。
但是,我們?cè)谂c用戶交流過(guò)程中發(fā)現(xiàn),用戶雖然認(rèn)可公有云 + 容器的模式,但是在公有云上自建一套容器化的 AI 計(jì)算平臺(tái),對(duì)部分用戶仍存在較大的技術(shù)門檻,尤其是那些尚未接觸過(guò)容器的用戶。
華為云就此推出了面向 AI 計(jì)算場(chǎng)景的容器服務(wù)——AI 容器,并于 2018 年在華為全聯(lián)接大會(huì)發(fā)布,今年我們對(duì) AI 容器進(jìn)行了升級(jí),在性能、易用性、可運(yùn)維等方面都有了很大的提升。
華為云 AI 容器:更易使用和運(yùn)維 提升 AI 計(jì)算效率 50%**
開(kāi)箱即用 免除基礎(chǔ)設(shè)施運(yùn)
AI 容器采用華為云容器實(shí)例(CCI)作為基礎(chǔ)設(shè)施層,得益于 CCI 的 Serverless 架構(gòu),用戶完全無(wú)需關(guān)心主機(jī)的創(chuàng)建、管理、運(yùn)維,而只需要在使用時(shí)申請(qǐng)所需要的算力資源即可(算力類型、CPU 核數(shù)、內(nèi)存量),省去了基礎(chǔ)設(shè)施的日常運(yùn)維工作,用戶可以更加專注于 AI 計(jì)算本身。
更快速的獲取算力資
AI 容器基于全新的 Volcano 平臺(tái)進(jìn)行任務(wù)調(diào)度管理,Volcano 是華為云高性能批量計(jì)算平臺(tái),具有更高的調(diào)度性能,最高可達(dá) 1000 容器 / 秒,將算力獲取的效率提升近 10 倍。
同時(shí),有了 Volcano 的加持,?AI 容器還可以基于拓?fù)浜唾Y源親和進(jìn)行任務(wù)調(diào)度,根據(jù)策略將關(guān)聯(lián)任務(wù)調(diào)度到同一物理節(jié)點(diǎn)或二層網(wǎng)絡(luò)內(nèi),極大的提升了 AI 訓(xùn)練過(guò)程中任務(wù)間通信及數(shù)據(jù)交互的效率。
秒級(jí)計(jì)費(fèi) 資源性價(jià)比更高
AI 訓(xùn)練時(shí)客戶需要快速、多次計(jì)算進(jìn)行迭代,會(huì)對(duì)資源進(jìn)行頻繁的申請(qǐng)、釋放,AI 容器采用按秒計(jì)費(fèi)和套餐包的計(jì)費(fèi)方式,真正做到按使用付費(fèi)(PAYU),避免客戶采用包周期等方式購(gòu)買資源后,利用率不足而造成的浪費(fèi)。
開(kāi)放生態(tài) 支持主流訓(xùn)練框
隨著 AI 平臺(tái)容器化的深入,大量訓(xùn)練框架都已發(fā)布其容器版本,AI 容器目前已支持 Tensorflow, Caffe, Mxnet, Pytorch, MindSpore 等近十種主流訓(xùn)練框架,用戶可以將訓(xùn)練代碼平滑的遷移上云。
多樣算力 用戶選擇更加靈活
AI 容器的能提供昇騰、鯤鵬、x86 和 GPU 等類型的算力資源,用戶可以實(shí)現(xiàn)一套平臺(tái)運(yùn)行不同類型的應(yīng)用,根據(jù)應(yīng)用特點(diǎn)靈活選擇算力資源,達(dá)到資源的最優(yōu)配置。
原文:?https://www.infoq.cn/article/ug8RNQ1etS96u2amIuN3
AI 容器 計(jì)算
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。