深度學習核心技術精講100篇(六十六)- 基于LXD的GPU算力虛擬化(附解決方案代碼)
搭建需求
由于當前算法和模型對GPU的強烈需求,實驗室購置了一臺性能強悍的GPU云服務器供大家一起使用。如果所有人對這臺服務器擁有控制權是十分危險的,例如誤刪除他人文件,弄亂他人環境等。最簡單的方法是為每位同學配置一臺虛擬機,但硬件虛擬化造成大量的資源浪費,同時GPU并不支持常規的虛擬化。
?云計算資源因安全措施考慮會進行如下設置:?設置訪問白名單,限制僅實驗室環境下訪問。外部環境若需要訪問計算資源,需先通過VPN接入實驗室內網?僅開放用于SSH連接的端口到公網
基于上述背景整理提出以下需求:
?獨立:不同用戶的環境相互獨立,可同時使用。?隔離:用戶不能直接操作宿主機,即用戶不能逃逸至宿主機。用戶訪問宿主機的唯一通道是共享文件夾。?自由:用戶可以像使用一臺自己的Linux機器一樣,通過SSH訪問,并擁有主機的所有權限。?GPU:核心需求,每位同學可以直接訪問GPU和使用宿主機的所有資源,包括CPU、內存、硬盤等。?可控:管理員可以較為方便對每位同學的機器進行管理,如資源爭搶嚴重時,限制每位同學的資源使用上限(GPU, CPU, 內存等)?開銷: 為滿足這些需求,額外的開銷應該盡可能小到可以忽略。?利用率:公用算力的資源應該能得到最大化的利用?復雜度:整套解決方案不能太復雜,便于維護
宿主機硬件配置
?GPU NVIDIA Tesla P40 *2?Memory 64G?Disk 100G SSD 系統盤 + 500G SSD 數據盤?CPU Intel Core (Broadwell, no TSX) @ 16x 2.2GHz?OS Ubuntu 20.04 LTS Server
解決方案
需求中有兩個核心點:
GPU加速云服務器 深度學習 虛擬化
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。