MindInsight安裝及可視化集群調優
一、安裝MindSpore1.15
因為MindSpore目前只支持Python3.7.5(3.7.5小版本在.5以上好像也可以)和Python3.9,所以建議使用Anaconda進行安裝。
Anaconda主頁:https://www.anaconda.com/
進入到命令行界面(Windows在安裝后有對應的Anaconda命令行,linux的話就直接終端運行)創建環境
conda create -n msinsight python=3.7
MindSpore1.5安裝參考MindSpore安裝文檔https://mindspore.cn/install
直接根據環境選擇對應的MindSpore安裝包,然后復制下載安裝命令,我這里選用的是MindSpore GPU版本,CPU的話就選擇CPU然后復制對應的命令即可
pip install https://ms-release.obs.cn-north-4.myhuaweicloud.com/1.5.0/MindSpore/gpu/x86_64/cuda-11.1/mindspore_gpu-1.5.0-cp37-cp37m-linux_x86_64.whl --trusted-host ms-release.obs.cn-north-4.myhuaweicloud.com -i https://pypi.tuna.tsinghua.edu.cn/simple
安裝完成后,使用如下命令檢查一下是否安裝成功
python -c "import mindspore;mindspore.run_check()"
出現如下說明安裝成功
MindSpore version: 1.5.0 The result of multiplication calculation is correct, MindSpore has been installed successfully!
二、MindInsight安裝
安裝MindSpore可以使用后接下去我們安裝MindInsight
MindInsight安裝命令:
pip install mindinsight
檢驗是否安裝成功
mindinsight start
出現如下字樣說明安裝完成:
Workspace: /home/jeffding/mindinsight Summary base dir: /home/jeffding Web address: http://127.0.0.1:8080 service start state: success
三、修改MindInsight代碼使得可以遠程訪問
默認安裝的MindInsight是能實現本地瀏覽器使用127.0.0.1:8080地址進行訪問。但是如果我們使用ECS需要進行遠程訪問的就會出現訪問不了。不過也不是不能訪問,只需要修改一個文件即可
使用vim工具修改對應的代碼,代碼路徑:[anaconda3安裝路徑]/envs/msinsight/lib/python3.7/site-packages/mindinsight/conf/constants.py
將代碼中的
#################################### # Web default settings. #################################### HOST = '127.0.0.1'
修改成
#################################### # Web default settings. #################################### HOST = '0.0.0.0'
然后保存后,重啟一下mindinsight
mindinsight stop mindinsight start
出現如下字符:
Workspace: /home/jeffding/mindinsight Summary base dir: /home/jeffding Web address: http://0.0.0.0:8080 service start state: success
現在我們在使用瀏覽器訪問看看
現在我們可以看到可以正常訪問MindInsight
四、可視化集群調優
接下去我們找一個性能數據進行性能瓶頸的分析。看一下性能瓶頸在哪里
可以看到這里顯示有一個性能數據,點擊【性能分析】就可以查看到一些性能數據
可以看到界面上有一些性能的信息,例如:迭代軌跡、算子耗時排名等等。在頁面的左面還有調優的建議可供參考。
我們點擊【算子耗時排名】看一下算子的耗時信息
在這個界面我們可以清晰的看見AI CORE、AICPU、HOST CPU的一些算子耗時信息。我們可以在界面中看到0號卡上耗時比較多的算子是FusionOp_Conv2D_BNTrainingReduce。左上角的邏輯卡號我們還可以選擇不同的卡,查看其他卡上的資源
以上的數據都是單機的一些數據,我們回到主界面點擊【集群】就可以看到集群的一些性能數據
在這個界面可以看到有迭代軌跡、集群通信等等信息。點擊迭代軌跡的詳情
在出來的界面中就可以看到迭代軌跡的詳細信息。接下去我們點右上角的大叉,我們看看集群通信的數據。
在這個界面中集群通信的一些數據就出來了,我們點算子詳情,就可以看到有哪些算子的耗時比較長,
在出來的窗口中我們可以清晰的看到集群中AllReduce耗時比較久。
至此,整個可視化集群性能調優的操作就體驗完成了。
MindSpore
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。