CANN 5.0黑科技解密 | 算力虛擬化,讓AI算力“物盡其用”
為什么要做算力虛擬化

近年來,人工智能領域呈井噴式發展,算力就是生產力,以AI集群為基礎的人工智能計算中心在國內多點開花,為政府、企業及個人,提供了一種新的城市公共資源,成為了智能世界的“黑土地”。
算力資源共享勢必會帶來資源分配問題,無論是人工智能計算中心這種大型AI基礎設施還是AI計算卡這種小型AI計算資源,都承載著用戶多樣化的AI算力訴求。
比如,在某些算力要求不高的場景下,AI模型在訓練或推理時并不需要占用整張AI計算卡,希望更低的資源配置滿足要求,比如1/4切片;再或者,在教學場景,一臺AI服務器(可由單張或多張計算卡組成)希望可共享給整個班級使用。
借助虛擬化技術可輕松應對以上問題!
我們將整卡或整機的計算資源虛擬化為多個虛擬計算設備,并在上面部署不同的虛擬機或容器,分別運行AI訓練或推理應用服務。
對消費者而言,可有效降低算力的使用成本,對于設備商或運營商而言,則可極大提升算力資源的利用率,降低設備運營成本。
業界常見虛擬化技術
業界常見的虛擬化技術有「基于時間分片」和「基于計算實例隔離」。
舉個例子,三胎政策來了,未來幾年,媽媽們可能會面臨同時應付三個神獸的情況,老大要輔導作業,老二要讀繪本,老三要喝奶…先忙誰都有意見,怎么辦?
遇事不要慌,坐等天塌是沒用的,基于時間分片的虛擬化技術為三胎媽媽提供了友好的解決方案,讓每個娃都不會等太久,雨露均沾,不偏不倚:
這實際上是對計算資源從時間層面上劃分,與CPU進程調度類似,各任務進程按時間切片占用全部的物理設備資源。
而基于計算實例隔離的虛擬化技術,是對計算資源本身的直接劃分,正如文章開頭的舉例,老師在教學時,將一臺AI服務器劃分成N個虛擬組并做好安全隔離,然后共享給整個班級使用,使得每個學生都能獨立使用,互不干擾,實現多個虛擬機實例共享同一硬件資源。
顯而易見,兩種虛擬化技術均能有效提升算力資源利用率,但并不是天衣無縫。
基于時間分片,無法做到AI任務之間的安全隔離;而基于計算實例分片,在目前市面上支持的切分粒度不夠細,不能滿足用戶更高規格的切分訴求
而華為提供的AI算力虛擬化技術,支持足夠細致的切分粒度,且在各個虛擬設備間可做到足夠安全的相互隔離,無論從切分粒度還是安全角度來說,都要更勝一籌!
下面我們就來看看,華為是怎樣做到的。
華為AI算力虛擬化技術解讀
眾所周知,昇騰910是華為推出的一款具有超高算力的AI處理器,它集成了32個達芬奇架構的AI Core計算引擎,可高效執行矩陣、向量計算密集的算子任務,八位整數精度(INT8)下的性能達到640 TOPS,16位浮點數(FP16)下的性能達到320 TFLOPS。
單片昇騰910 AI處理器提供的算力如此之大,為了使其“物盡其用”,必須充分利用好虛擬化技術,將硬件的計算資源利用到極致。
CANN作為AI領域的異構計算架構,不僅能充分做好本職工作——極大程度釋放硬件性能,為AI應用提供強大的算力支持,還在最新的5.0版本中,借助“基于AI Core切分的算力虛擬化技術”,最高可支持切分成32個分片,充分提升了硬件的資源利用率。
下圖是CANN 5.0的算力虛擬化框架:
基于該框架,可支持虛擬機、容器的單一或混合部署,并能支持不同類型算力單元的劃分,實現算力、內存、帶寬的靈活切分、隔離。
下表是昇騰910支持的基于AI Core切分的算力虛擬化典型配置:
切分比例
AIC核數
HBM內存規格
1/2
16
16G
1/4
8
8G
1/8
4
4G
1/16
2
2G
1/32
1
1G
比如,教學場景下,有人算力訴求小,有人算力訴求大,基于AI Core切分的算力虛擬化技術,能夠將一片昇騰910 AI處理器進行靈活切分,以匹配開發者多樣化的算力訴求:
算力就是智能時代的糧草,半絲半縷彌足珍貴,正是得益于CANN超小粒度的算力切分機制,讓小算力場景下算力分配更加合理,寶貴的計算資源才能得到更加充分的利用。
CANN在實現算力切分的同時,也實現了各個虛擬設備間的安全隔離,包括:
支持虛擬設備間內存隔離:
通過算力配置,實現HBM、DDR等內存的自動切分和隔離。
支持虛擬設備間的數據隔離
通過虛擬設備的標識,實現用戶數據按照虛擬設備自動處理和隔離。
支持虛擬設備間的業務故障管理隔離
各個虛擬設備的故障信息反饋給對應的虛擬機或容器。
除了支持對單個昇騰910 AI處理器按照AI Core級別進行算力切分,CANN還支持在搭載多個昇騰910 AI處理器的AI Server或集群系統中,按照昇騰910 AI處理器維度做算力劃分。
從技術角度看,CANN 5.0的算力虛擬化方式切分更細致、隔離更安全,給予了行業開發者更多選擇;
從性能角度看,虛擬化和非虛擬化場景下性能持平,提升靈活性的同時,也妥善保證了用戶體驗不打折!
寫在最后
CANN 5.0在算力虛擬化方面做出的努力,可有效降低管理成本,提高系統利用率和安全性。
自此,云端個人用戶或者小企業客戶,只用按需購買資源和算力,即可以最低成本完成AI應用部署。
未來的智能世界里,AI一定是人人皆可得的通用技術,算力也必然是人人皆可用的平民化資源。
借力于CANN 5.0,AI正在逐步成為大家“用得起”的普惠AI。
未來不遠,已在路上,你準備好了么?
歡迎登陸昇騰社區網站LINK或掃描下方二維碼了解更多信息。
上云必讀 昇騰 AI
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。