假期后被發現的數據中心故障——存儲系統
背景

某客戶按“兩地三中心”架構搭建了虛擬化平臺,前端虛擬化采用VMware vSphere(基礎組件包括vCenter、VR、SRM),虛擬化平臺承載了大量業務系統和業務數據,暫未建立云管平臺和智能運維平臺。
項目投入運營伊始,問題不斷,折騰來折騰去的,終究是一個一個解決。此間項目組應對頻發的問題制定了適合項目實際的《應急預案》,在管理上提供了工作流程保障,利于工作推進,不至于工作踢皮球。這個“煩心”的過程,讓駐場技術負責人W經理腦中的“弦”繃得更緊。
W經理一直不敢大意,按計劃,在春節放假前一天聯合機房管理人員對虛擬化平臺的基礎設施進行了巡查,記錄了溫濕度、灰塵情況、設備工作狀態,均為正常。W經理做這個工作前,腦袋里又放電影一般出現了這一幕——地鐵司機每次在啟動列車時會專注望著前方,抬起手臂,五指指向前方,再發車開動。這一幕總是會給W經理帶來鼓勵,提醒自己有些工作必須嚴謹、程序化。巡檢完備機房,例行向項目經理匯報,W經理暗自祈禱春節期間不要出現什么幺蛾子。當然某部門嚴格制定了節假日值班計劃,配備了值班人員,但W經理整個假期還是懸著一顆心。
問題
系統穩定運行了幾個月,到了2019年春節,機房的基礎設施還是出現了應急狀況。
春節后第一個工作日,W經理來到駐地就接到機房管理人員的來電說“機房有高溫報警,設備指示燈異常”。W經理心里“咯噔”一下,立即趕往那個同城備機房。
好家伙,存儲的兩個機頭全亮黃燈告警,2個磁盤擴展柜也已黃燈告警,看來已經宕機。
解決
W經理作了檢查,還好有雙活,業務未受到影響,根據應急預案,暫未列為應急事件,但在問題解決前要密切巡查整體運行情況。定位問題第一步是檢查存儲日志,日志顯示三天前報告了環境高溫告警,幾小時后存儲機頭出現“電池過熱”的告警,最后顯示存儲宕機。
有了初步調查結果,W經理第一時間向項目經理匯報,隨后計劃向監理/客戶報告、并聯系原廠檢查修復。
存儲廠商檢查后,存儲機頭一個能啟動,另一個無法啟動,分析認為是機頭蓄電池的問題。后從原廠調貨,電池到貨后換上問題依然沒有得到解決,主板放電等操作后,蓄電池依然無法充電,系統也無法進入,原廠工程師進一步判斷是存儲機頭的主板部件損壞。后從原廠調來全新主板更換,校正主板微碼等匹配性工作,存儲機頭能正常啟動。再重新配置存儲軟件,恢復了兩套存儲的數據同步工作。經過1天的數據同步,存儲系統恢復正常運行。
小結
低效率的運維方式必須得到改變。
解放駐場運維緊繃的“弦”,讓運維人員不是空繃著神經,讓"手工”掌握工況信息轉變為實時掌握工況,是踐行快樂工作。
溫度是機房設備正常運行的“守護神”,應保證精密空調有冗余電源,確保溫度預警時能根據實際情況保障空調不停機。
根據數據機房的實際情況,基于大量的實際的運維知識庫,上一套智能運維管理系統顯得尤為重要。
有了軟硬件的保障,最后就是客戶制定一套行之有效的運維管理制度并嚴格執行,確保生產業務的正常運行,讓故障損失降到最低,節省成本。
邊緣數據中心管理 EDCM 存儲
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。