【案例分享】MapReduce Service OMS頻繁主備倒換manager界面異常
【問(wèn)題現(xiàn)象】
集群安裝完成后,界面頻繁上報(bào)Manager主備倒換告警,根據(jù)現(xiàn)場(chǎng)工程師反饋每間隔1-2小時(shí)會(huì)發(fā)生一次主備倒換,短暫性導(dǎo)致界面異常,無(wú)法進(jìn)行運(yùn)維監(jiān)控操作,如下所示:
【可能原因】
1、httpd服務(wù)異常
2、pms資源異常
3、底層軟件異常
4、其他原因等
【分析過(guò)程】
1、主備OMS發(fā)生倒換,優(yōu)先看主備oms的ha.log日志《日志路徑:/var/log/Bigdata/omm/oms/ha/runlog/ha.log》,一般都是因?yàn)槟承﹐ms依賴的服務(wù)出現(xiàn)異常,才會(huì)導(dǎo)致oms降備或者升主
2、從主oms的ha.log日志可以看出,2021-06-23 06:03:18主節(jié)點(diǎn)pms服務(wù)異常,觸發(fā)主oms降備;
3、從主oms節(jié)點(diǎn)的pms_ha.log《日志路徑:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_ha.log》進(jìn)一步確認(rèn)2021-06-23 06:03:18這個(gè)時(shí)間點(diǎn)之前pms的運(yùn)行狀態(tài),如下所示2021-06-23 06:03:18
4、接著需要看下主節(jié)點(diǎn)pms_script.log《日志路徑:/var/log/Bigdata/omm/oms/pms/scriptlog/pms_script.log》,查看pms腳本執(zhí)行情況
5、從上面日志可以看出,2021-06-23 06:02:19主節(jié)點(diǎn)pms堆內(nèi)存溢出,進(jìn)程被kill,導(dǎo)致pms服務(wù)異常
6、至此,可以判斷是因?yàn)閜ms進(jìn)程(pms進(jìn)程只在主節(jié)點(diǎn)有)內(nèi)存不足導(dǎo)致pms服務(wù),進(jìn)一步導(dǎo)致主備oms倒換。
7、查看主節(jié)點(diǎn)pms進(jìn)程內(nèi)存及運(yùn)行情況,執(zhí)行命令:ps -ef | grep pms,如下:pms最大內(nèi)存:1024mb、最小內(nèi)存:1024mb(默認(rèn)值)
8、執(zhí)行如下命令,查看當(dāng)前集群oms節(jié)點(diǎn)配置情況,如下可以看出,集群當(dāng)前節(jié)點(diǎn)配置為默認(rèn)配置:0-32節(jié)點(diǎn)
ll /opt/huawei/Bigdata/om-server/om/etc/om/omscfg/
【解決方案】
1、確認(rèn)是內(nèi)存過(guò)小導(dǎo)致后,接下來(lái)可以通過(guò)優(yōu)化Manager參數(shù),將controller和pms的內(nèi)存調(diào)大,在《產(chǎn)品文檔》搜“根據(jù)集群節(jié)點(diǎn)數(shù)優(yōu)化Manager配置”,將節(jié)點(diǎn)配置參數(shù)(0-32)調(diào)整至(101-500),此時(shí)pms會(huì)被調(diào)整到8192M
具體步驟:
a.使用PuTTY,以omm用戶登錄主管理節(jié)點(diǎn)。
b.執(zhí)行以下命令,切換目錄。
cd ${BIGDATA_HOME}/om-server/om/sbin
c.執(zhí)行以下命令查看當(dāng)前集群Manager相關(guān)配置。
sh oms_config_info.sh -q
d.執(zhí)行以下命令指定當(dāng)前集群的節(jié)點(diǎn)數(shù)。
命令格式:sh oms_config_info.sh -s?節(jié)點(diǎn)數(shù)
例如:
sh oms_config_info.sh -s 1000
根據(jù)界面提示,輸入“y”:
The following configurations will be modified: Module Parameter Current Target Controller controller.Xmx 4096m => 16384m Controller controller.Xms 1024m => 8192m Controller controller.node.heartbeat.error.threshold 30000 => 60000 Pms pms.mem 8192m => 10240m Do you really want to do this operation? (y/n):
界面提示以下信息表示配置更新成功
配置更新過(guò)程中,OMS會(huì)自動(dòng)重啟。
相近數(shù)量的節(jié)點(diǎn)規(guī)模對(duì)應(yīng)的Manager相關(guān)配置是通用的,例如100節(jié)點(diǎn)變?yōu)?01節(jié)點(diǎn),并沒(méi)有新的配置項(xiàng)需要刷新。
2、執(zhí)行完成后,觀察一段時(shí)間看是否還會(huì)倒換
EI企業(yè)智能 FusionInsight MapReduce 云容災(zāi)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。