基因數(shù)據(jù)分析軟件遷移-Jupyter Notebook
947
2025-03-31
在開發(fā)場景下,單人占用單張GPU卡存在利用率低的情況,所以多人共用一個GPU實例是一個普遍接受的方案。在ModelArts中,我們可以多人共用一個notebook實例,從而提升資源的ROI。
但是ModelArts的notebook實例是基于容器化方案提供的,如果實例異常或者重啟,會將整個環(huán)境恢復到初始狀態(tài)。雖然可以通過鏡像保存等功能進行環(huán)境配置固化,但是在多人共用的場景下可行性較差。
本文將介紹一些多人共用Notebook的注意點和使用建議。
Notebook實例的特點:
基于容器化構(gòu)建:
環(huán)境修改重啟后失效,需要通過鏡像保存來固化。
可以通過注冊自定義鏡像的方式創(chuàng)建自有環(huán)境。
異常情況下實例會重啟。異常場景包括:CPU打滿、內(nèi)存占滿、掛載目錄容量超過限額等。
節(jié)點網(wǎng)絡:可以訪問外網(wǎng),可以配置ssh登陸。
掛載目錄情況“
目錄“/home/ma-user/work”是單獨掛載的EVS盤,提供較高的訪問性能,且存儲內(nèi)容會持久化存儲。
目錄“/cache”是掛載節(jié)點的NVMe SSD盤,提供超高的訪問性能,但是重啟后會重置,容量限額500G
SSH&VS Code配置:
建議打開對應配置,多人可以通過VS Code來使用,或者直接通過ssh以命令行方式使用。
相關配置參考博客: https://bbs.huaweicloud.com/blogs/280541
Conda環(huán)境配置:
建議每人創(chuàng)建自己的conda env以便進行環(huán)境隔離。建議把conda的環(huán)境和緩存改到“/home/ma-user/work”目錄下,以便重啟后可以快速恢復對應環(huán)境。
路徑的設置可以通過編輯“/home/ma-user/.condarc”來實現(xiàn)。添加或修改配置"env_dirs"和"pkgs_dirs"來設置環(huán)境和緩存路徑,按順序第一個路徑作為默認存儲路徑,搜索環(huán)境和緩存時按先后順序在各目錄中查找。
配置命令如下:
mkdir -p /home/ma-user/work/envs/ mkdir -p /home/ma-user/work/pkgs/ conda config --add envs_dirs /home/ma-user/work/envs/ conda config --add pkgs_dirs /home/ma-user/work/pkgs/
之后,我們可以使用clone的方式創(chuàng)建一個自己的env,然后再切換到對應的env安裝自己需要的包:
conda create -n my_env_name --clone python-3.7.10
參考文檔:
https://blog.csdn.net/qq_38262728/article/details/88744268
https://blog.csdn.net/ljx0951/article/details/104121844
https://blog.csdn.net/javastart/article/details/102563461
Notebook監(jiān)控配置:
因為部分異常情況會導致容器重啟,所以我們需要找到實例重啟的元兇。
建議啟動實例后進行實例狀態(tài)的監(jiān)控,這樣我們就知道是哪個命令導致出錯的。如果我們能要求所有用戶都在啟動命令里增加自己名字信息(比如大家以自己的名字為目錄,命令以絕對路徑啟動),就可以方便的找到責任人。
針對內(nèi)存和CPU的監(jiān)控參考博客: https://bbs.huaweicloud.com/blogs/351255
針對/cache目錄使用情況的監(jiān)控,可以使用如下命令來定期查看。
while :; do date; du -hs /cache/*; sleep 300; done
鏡像服務
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。