亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析
1928
2022-05-28
第一章 某數據中心基礎運維概述
某數據中心的基礎運維工作主要包含包括四個部分:基礎環境、網絡、服務器存儲和基礎軟件。
其中第一部分機房基礎環境部分,包含機柜位置、空調、消防、安防、弱電、UPS等最基礎的機房環境設施。需要對這些基礎環境部分進行運維維護,確保整個機房環境正常穩定。
第二部分為網絡環境,包括當前數據中心所有的交換機、路由器等設備,以及由這些設備組成的所有網絡,需要監控網絡運行情況并提出網絡風險評估,定期對網絡進行優化配置,提高網絡運行效率,保證整個網絡環境的安全。
第三部分服務器和存儲部分,包含整個數據中心的小型機、服務器、存儲設備、SAN交換機等設備。這些設備支撐著整個業務系統,是非常重要的基礎硬件環境。需要監控這些設備的運行情況,及時處理出現的問題和變更,并基于整個環境提供優化。
第四部分為基礎軟件部分,包括各種操作系統、數據庫、中間件、備份軟件等等。要求這些軟件可以正常工作,并優化配置,為平臺和工作站正常服務,當這些軟件出現問題時,能發現并提出解決方案;可以協助應用人員解決故障或進行對應的變更、升級等操作。
本方案將基于這幾個方面進行設計,確保數據中心正常、高效運行。
第二章 數據中心運維分類
某數據中心運維團隊將根據當前數據中心的實際情況和對應的管理制度,通過主動性、預防性維護,執行日常維護作業計劃,對告警、性能、運行狀態進行檢查分析,及時進行數據備份,并定期對備份數據進行恢復性測試驗證,對系統運行質量進行分析,并進行維護記錄。對監控或維護中發現的問題及時處理,消除隱患,保障平臺的穩定運行。我們將基于以下幾個方面對運維工作進行描述
2.1 基礎環境運維管理
針對基本的機房環境設施,我們的工作內容包含以下這些內容:
1) 機房機柜擺放規劃和機柜管理;
2) 服務器和網絡設備擺放規劃和日常管理;
3) 設備出入機房審批登記管理;
4) 內部人員出入機房審批登記管理;
5) 外部來賓機房參觀審批登記管理;
6) 機房電力系統監控、問題及時上報;
7) 消防監控系統監控、接收報警短信和聯系第三方;
8) 空調報警系統監控、接收報警短信和聯系第三方;確認空調運行狀態良好。清潔機房的空調防塵網。
9) 溫濕度報警監控、接受報警短信和聯系專業第三方;
10) 漏水報警系統監控、接受報警短信和聯系專業第三方;
11) IC卡門禁系統日常運維;
12) 視頻監控系統日常運維;
13) UPS報警系統監控和聯系第三方;
14) 機房資產管理系統(CMDB)。
15) 機房環境。清理機房的雜物,將機房物品定置。清潔機房門窗、地面。定期清潔電池室的地面;檢查機房所有與外界的空洞是否已嚴密封堵,嚴密防鼠;檢查機房玻璃、地板、天花板、通氣口,墻體表面是否正常,外觀是否完好,有否出現老化現象。檢查機房是否有漏水現象。檢查機房墻壁是否有滲水現象。填寫巡檢記錄,有問題及時報告。
16) 巡視電池間;檢查電池工作狀態。
17) 確認機房照明良好,出現問題及時報告。
18) 視頻網絡播放系統。定期檢查可用性,有問題及時與專業第三方公司聯系解決。
19) 填寫巡檢記錄。
2.2 網絡運維管理
針對數據中心的網絡部分,運維內容主要包含以下內容:
1) 測試網絡接入速度,監控網絡訪問可用性和訪問質量,出現問題第一時間直接聯系接入商解決。
2) 網絡接入商變化時,配合網絡接入商對網絡變更方案的可行性審查、問題審查。配合網絡接入商更替施工。
3) 局域網。本地局域網日常管理和維護;VLAN 劃分;網絡性能優化;故障排除;網絡節點周期性檢查,發現潛在問題,并解決。
4) 無線局域網。負責無線局域網的日常管理和維護;客戶端不能正常接入網絡的故障排除;網絡性能優化;故障排除;網絡節點周期性檢查,發現潛在問題并解決。
5) 遠程接入。制定VPN使用策略,實施VPN用戶日常遠程接入服務器的管理,以及性能優化和故障排除等。
6) 網絡病毒查殺和網絡安全保護。
7) 根據實際項目或安排而產生的其他工作。
2.3 服務器和存儲運維管理
2.3.1 服務器運行情況及性能監測
數據中心運維團隊將通過綜合監控系統實施7*24小時平臺設備監控,發現告警,并進行處理,解決問題。對系統運行進行實時檢查。對監控或維護中發現的問題及時處理,消除隱患,保障平臺的穩定運行。并且還提供針對各服務器物理資源的使用情況和操作系統的運行情況、進行實時監控,提供服務器安全監測報告。
主機性能監控的檢查列表包括:
? CPU利用率
? 內存使用情況
? 交換區使用情況
? 磁盤I/O情況
? 關鍵文件系統的狀態
? 重要進程的運行情況(例程數量、消耗CPU、占用內存)
? 操作系統的各類日志文件
? 網絡、端口信息
? ……
運維團隊需根據檢查列表進行日常檢查,并不斷地改進日常檢查列表,以滿足對系統監控的需要。
2.3.2 服務器軟硬件兼容性檢查
數據中心運維團隊在維護系統穩定運行的同時,需主動收集系統關鍵補丁、軟件補丁、硬件微碼等信息,在通過數據中心專家評審的前提下,對相關設備進行升級服務,并在升級完成后配合應用方對系統進行測試。升級前后需要和應用方及時做好溝通確認工作,確保不會產生兼容性導致的故障。
2.3.3 磁盤陣列設備管理
運維團隊需要對磁盤陣列設備及其相關的部件(如硬盤、控制器等)進行編號,并記錄在案,對軟件設置中的參數也要進行詳細的記錄,并在每次變更后及時更新相關的信息。
除此之外,運維團隊定期(暫定每半年)對于每個服務器的系統容量監測的審核,并制定相應的容量規劃,主要監測文件系統的空間、數據庫的空間資源利用情況,分析資源利用趨勢,并提供資源情況報表。
文件系統空間管理
? 定期檢查文件系統的空間使用情況,根據業務發展需求和新業務的增加,制定合理的空間分配方案,新增、修改或刪除空間。
? 對文件系統空間的使用進行監控,發現空間使用不合理或需要清理的協調解決。
數據庫空間管理
? 應實時監測數據存儲空間的使用情況,根據業務數據的數據量、數據結構以及增長速度,制定合適的數據存儲和結構優化策略,動態增加新的空間以存放業務數據;
定期檢查數據存儲空間的使用情況,根據實際情況規劃增加新的空間,填寫數據庫空間新增/修改/刪除申請表,經審核后實施,并更新數據庫配置狀況記錄表。
2.3.4 機柜、電源、網線布局管理
運維團隊對于新上架安裝的設備,需要進行拍照留檔,確認各線路位置,并對服務器的電源部分進行編號整理,最終登記在冊。
2.3.5 協助第三方維護
對于由專業第三方提供運維的設備,設備出現問題后運維團隊需及時通知第三方并告知采購人,視情況嚴重性,決定是否啟動應急預案;配合第三方服務商一起排查和解決問題,實施為了解決故障而進行的系統軟硬件的補丁、升級及維護工作。獨立處理初級系統故障,與第三方廠商或服務商配合解決高級別系統故障。記錄問題、故障的解決辦法及解決過程。做出臨時的配置變更以排除故障,在必要的時候,提出永久性配置變更建議。
2.4 基礎軟件運維管理
2.4.1 操作系統
運維團隊充分保障服務器操作系統的穩定運行,將提供以下服務內容:
1) 系統升級
運維團隊在維護系統穩定運行的同時,需主動收集系統關鍵補丁、軟件補丁等信息,在通過數據中心專家評審的前提下,對相關系統進行升級服務,并在升級完成后配合應用方對系統進行測試。升級前后需要和應用方及時做好溝通確認工作,確保不會產生兼容性導致的故障。
2) 操作系統穩定性監控定時查看操作系統日志及IIS日志,查看CPU、內存占用率,排除故障。
3) 權限與文件管理
服務器應明確責任人及管理帳號持有人,不應出現多人單帳戶,單人多帳戶的情況,不利于在服務器出現問題后,對服務器進行操作維護、查找問題。
4) 定期檢查磁盤空間
進行磁盤文件排列的優化和錯誤掃描,并處理錯誤;安全地刪除系統各路徑下存放的臨時文件、無用文件、備份文件等等,完全釋放磁盤空間。
5) 維護系統注冊表。
6) 系統配置。優化系統配置,關閉無用服務和端口,以最適合系統運行方式,最小化安裝等。維護系統配置文檔。
7) 負責系統用戶管理,如增加、刪除用戶、重置用戶密碼、管理用戶權限等。進行系統用戶管理時,記錄所有相關的系統變更。
8) 對于新安裝的服務器,運維團隊應負責安裝必要的應用軟件:如遠程監控工具、備份工具、防病毒軟件等。
2.4.2 數據庫
運維團隊將對數據進行日常維護,在數據庫性能監控的檢查列表包括:
? 資源使用情況
? 運行情況
? 數據庫進程狀態
? 數據庫連接狀態
? 數據庫進程使用資源
? 數據庫的表空間(數據表空間、索引空間、臨時表空間等等)使用情況;
? 數據庫日志空間
? 回滾段使用情況
? 數據庫鎖的數量
? 死鎖的發生、死鎖資源
? 數據庫碎片的數量
? 磁盤I/O
? 數據庫運行日志
? 數據庫用戶登錄情況
? 監控結果應做登記管理,如實記錄系統日常運行狀況及異常情況,填寫日常運行情況記錄表;
? ……
除此之外,數據庫的運維工作還包含一些其他工作,如:
1) 數據庫備份和恢復
2) 做好備份計劃,工程師定時完成,因備份占用內存較大,在訪問量大的情況下進行。當出現數據問題時,向采購人管理部門通報,說明數據情況,后恢復。
3) 訪問性能優化及數據庫同步
4) 服務器管理人員需記錄詳細的設置;數據庫如需要同步,應明確同步時間或實時同步等方式。
5) 數據庫日志和表空間,定期進行整理,問題解決。
2.4.3 中間件
運維團隊針對中間件的運維工作,內容如下:
1) Oracle Weblogic,輔助開發公司進行配置,保留配置文檔。模塊配置與更新,配合第三方配置.java及wls的版本及更新工作。操作系統模塊配置與更新,配合第三方配置操作系統到可用的版本及更新。配合反饋第三方解決服務錯誤日志中的問題。
2) 新軟件安裝,收集安裝光盤、安裝合同(可復印學習)、使用說明書、授權書(Liscense)。紙質版文件掃描后入庫,電子版文件進入配置庫。
2.4.4 備份系統
為保證在系統崩潰或停止運行時能盡快恢復系統,將制定相關的數據備份制度。應針對不同系統制定備份方案,應包括備份方法、頻率等。數據備份包括定期和不定期備份。重要數據應每月進行全備份和增量備份;不定期備份應該在數據變更后立即進行,更新前的備份按需要保存一定時間。
2.4.5 應用系統
當前的應用系統及相關的開發工作由第三方公司負責,運維團隊主要起配合作用,相關的工作內容如下:
1) 當應用出現問題,及時聯系第三方解決,并做問題記錄。
2) 配合第三方進行操作系統、數據庫和中間件的系統配置,并做配置記錄,在有授權運維的系統中,熟悉應用系統維護方法。
3) 配合第三方新應用系統上線,需收集安裝文件,源代碼,部署文檔、運維文檔。掃描后,入配置庫。與合同庫相關聯,記錄維護期間聯系人,原公司質保期。
4) 每日上班后、下班前檢查可用性,確認無災難性問題、黑客篡改問題。
5) 其他待完成工作,根據實際情況來處理。
第三章 運維工作內容
3.1 日常維護工作
運維團隊的值班安排分三班,保持7x24小時的人員安排,在任何時間數據中心都由值班人員。運維團隊根據數據中心的運維管理制度,通過主動性、預防性維護,執行日常維護作業計劃,對告警、性能、運行狀態進行檢查分析,及時進行數據備份,并定期對備份數據進行恢復性測試驗證,對系統運行質量進行分析,并進行維護記錄。對監控或維護中發現的問題及時處理,消除隱患,保障平臺的穩定運行。
3.2 系統性能監控管理
運維團隊通過綜合監控系統等實施7*24a小時平臺設備監控,發現告警,并進行處理,解決問題。使用綜合監控系統對系統運行進行實時檢查。對監控或維護中發現的問題及時處理,消除隱患,保障平臺的穩定運行。
3.3 系統維護管理
故障處理
運維團隊負責故障發現、故障分析、故障處理工作,在規定時間內,處理完成故障,同時負責調查故障原因,最后編寫詳細的《故障報告》,包括故障發生的起止時間、原因、現象、處理過程、處理結果和處理經驗。如果故障設備或組件為第三方維保,值班工程師負責和第三方對接,迅速解決問題。
軟件和補丁維護
操作系統級別的軟件和補丁服務
運維團隊對于維保設備提供所有軟件補丁,提供預警服務,對于軟件的維護版本提供補丁,并按穩定性和安全性的要求,提供是否升級的建議,評估風險和制作實施方案。
故障經工程師的分析表明它是由一個軟件錯誤所引起的,那么運維團隊需提供相應的軟件版本和補丁。
對于軟件版本和補丁的安裝,運維團隊首先將確認是否可以在對應平臺上進行裝載。若確認可實施,運維團隊則將提供補丁升級服務,升級前要配合相關應用方做好測試。
應急預案及演練
為加強風險管理意識,提高應急預案相關人員的應急處置能力,及時發現應急預案可能存在的問題,確保在緊急情況下,應急預案能夠真正發揮作用,需要通過周期性的演習演練來不斷檢驗應急體系應急預案的可靠性、有效性和可操作性。
應急預案的演習演練方式、演習演練頻度等內容明確如下:
1、演練分為桌面演練和實戰演練兩種方式,每次演練都應該有相關技術人員全程參與。
2、定期桌面演練,定期實戰演練;
3、每次演練結束之后應進行分析和總結,及時完成應急預案的更新、優化和完善。
協助第三方維護
在服務期內,運維團隊將配合第三方或服務商進行系統的升級、替換、新部件(模塊)安裝等,并在實施完成后確認工作正常。
備份
為保證在系統崩潰或停止運行時能盡快恢復系統,將制定相關的數據備份制度。應針對不同系統制定備份方案,應包括備份方法、頻率等。數據備份包括定期和不定期備份。重要數據應每月進行全備份和增量備份;不定期備份應該在數據變更后立即進行,更新前的備份按需要保存一定時間。
系統優化
對于巡檢或日常維護過程中發現的系統隱患或系統不是處于滿意狀態,提供相關系統優化的報告。
對于運行情況跟蹤,預防性診斷設備存在的隱患,提供系統優化建議,提供系統規范和流程的建議,提供系統優化概要。
硬件設備統計
運維團隊將定期對參保設備進行統計。
質量分析報告
運維團隊建立數據中心平臺的質量分析報告。每月匯總設備運行質量、系統性能等指標,進行數據中心平臺運行質量分析,排除質量隱患,不斷提高網絡運行質量和服務質量。
運維工程師應每周和每月對于數據中心在網系統運行情況作分析,數據采集、統計和分析系統設備的運行數據,形成系統運行周報和月報。
分析報告,包括優化設備運行的績效,提高系統穩定性的建議,對于系統擴容和優化投資的建議,提供系統運行情況概要,系統中關鍵設備的運行情況分析,并能識別和解決潛在問題,做好預警,制定并實施相應的優化措施,并對于系統的擴容和項目投資提供建議報告。
3.4 系統配置與支持維護
運維團隊的日常工作中,在系統配置和支持方面的工作內容如下:
維護系統軟硬件配置文檔;
負責系統用戶管理,如增加、刪除用戶、重置用戶密碼、管理用戶權限等;
進行系統用戶管理時必須遵循數據中心的賬戶命名規則及賬戶密碼策略,并文檔記錄所有相關的系統變更;
每月提交系統賬戶變更月報;
配合第三方進行升級、安裝系統,及時更新操作系統補丁,進行系統軟件備份;
根據運維報告及統計報表,每月制定維護作業計劃,并提交日常維護報告;
3.5 系統容量管理
運維團隊至少每半年進行一次對于每個服務器的系統容量監測的審核,并制定相應的容量規劃,主要監測文件系統的空間、數據庫的空間資源利用情況,分析資源利用趨勢,并提供資源情況月報表。
文件系統空間管理
定期檢查文件系統的空間使用情況,根據業務發展需求和新業務的增加,制定合理的空間分配方案,新增、修改或刪除空間。
對文件系統空間的使用進行監控,發現空間使用不合理或需要清理的協調解決。
數據庫空間管理
應實時監測數據存儲空間的使用情況,根據業務數據的數據量、數據結構以及增長速度,制定合適的數據存儲和結構優化策略,動態增加新的空間以存放業務數據;
定期檢查數據存儲空間的使用情況,根據實際情況規劃增加新的空間,填寫數據庫空間新增/修改/刪除申請表,經審核后實施,并更新數據庫配置狀況記錄表;
3.6 巡檢工作
除了依靠數據中心的監控軟件,還要求運維團隊對服務器、存儲、操作系統、數據庫、中間件等基礎設施進行巡檢,并編寫巡檢報告。通過巡檢可以對當前系統的運行狀況有一個詳細的了解,對巡檢中發現的問題可以及時采取預防性措施,降低故障發生的概率,提高系統的可靠性。
巡檢工作需要檢查以下幾個方面:
場地環境檢查:包括機房的溫度、濕度、通風及UPS工作狀態等的檢測;
操作系統:檢查補丁完整性,記錄軟件版本,以保證系統發揮最佳性能;
外設檢查:對網卡或HBA卡、磁盤驅動器的讀寫、磁帶機的讀寫進行檢測;
網絡設備檢查:運行環境檢查、LED控制面板、IOS版本信息、進程狀態、內存利用率、接口狀態、路由表狀態、網絡連通性測試;
設備清潔:對相關設備進行維護保潔工作,使設備保持良好的運行狀態;
系統日志檢查;
文件系統檢查、清理;
系統配置檢查;
系統和數據備份檢查;
系統運行情況分析;
系統總體性能評估。
1.機房環境日常檢查內容
機房環境服務是為機房設備如小型機、網絡設備和存儲設備等提供一個安全可靠的物理環境,確保機房設備不會因為環境因素導致不能正常運行或損壞。
為了達到此目的,機房環境需具備以下標準:
確保機房溫度在24+2℃之間,最大溫度變化率不超過10℃/小時;
確保機房濕度在50+5%之間;
確保機房電壓在220V+5%之間,電壓頻率在50.5~49.5之間,瞬間變動電壓不超過220V+/-15%,總諧波不高于5%;
機房電源地線方面確保機房接地線與任何導線完全隔離及絕緣,接地線線徑至少為3.5mm,系統接地電阻在電源插座連線與地線間不大于2歐姆,在電源輸出座連線與地線間電壓小于1V,在接地線的接地端測的接地電阻不大于1歐姆;
確保機房為網絡設備、空調、視頻等提供獨立的冗余雙電源供應系統,杜絕電源公用現象,確保網絡設備電源無隱患;
確保機房整潔干凈,避免機房在陽光直射之下;
確保機房無線電雜波干擾低于0.5V/米;
2.服務器、存儲、操作系統、數據庫、中間件巡檢及巡檢報告內容
針對服務器、存儲、操作系統、數據庫、中間件等比較重要的組件,數據中心制定了按月巡檢的計劃,需要按照巡檢報告的模板進行檢查,巡檢報告要涵蓋以下內容:
3.7 定期服務報告
系統維護檔案,詳細記錄數據中心相關的設備信息和項目管理信息。在日常運維中,服務報告和技術文檔由運維團隊的相關人員負責維護和更新。
系統維護檔案將分為以下四個部分:
3.7.1 設備配置檔案
維護設備及軟件清單、系統功能、詳細配置信息及軟件版本和設備PN號;
設備位置、網絡拓撲、設備連接拓撲及各種工程圖紙;
如果系統發生變更,如實施軟件、補丁、微碼升級或業務調整,同步更新配置檔案;
系統雙機、備份設置和運行情況。
3.7.2 服務文檔
技術參數的配置文檔;
處理故障時的《故障處理報告》;
每季度的《季度運維總結》;
每次重大故障處理后發布《重大問題分析報告》;
共享維護內容及其他技術資源整理知識庫;
每次巡檢時的《巡檢報告》;
微碼更新、性能分析及優化、機房搬遷等服務實施方案、專業服務報告和技術建議等。
3.7.3 服務總結
運維團隊根據自身的工作內容,在每季度需要對自己的工作進行匯總,并生成《季度運維總結》。
報告中的具體內容包括:
故障處理及備件更換情況匯總;
設備狀況分析及評價;
人員出勤情況,工作量,或資源使用情況,包括第三方供應商服務情況;
重大事件和變更情況;
配置管理相關信息;
趨勢信息;
下一步工作計劃;
3.8 運行維護優化評估
(1) 建立基于數據中心的基礎運維服務管理框架體系及運維團隊,根據網絡的現狀提出整體安全規劃,包括日常維護計劃、安全風險控制計劃、應急響應計劃等
(2) 提供風險評估、災難恢復、應急響應、安全培訓服務并提供報告
(3) 安全檢測
每季度定期對服務范圍內的對網絡設備、服務器操作系統、數據庫系統、應用軟件系統的安全策略和安全配置進行檢查和測試,從中獲得相關的信息、發現系統面臨的威脅以及存在的安全性。
(4) 安全評估。
每季度對服務范圍內的整體網絡系統進行全面、統一的系統性的安全風險評估,識別和控制網絡中的關鍵資產及可能會產生的安全風險,并對所發現的問題提供優化、改進建議。并根據評估的結果為關鍵資產建立應急響應預案以及細微調整其后安全維護服務所要監控的內容。
(5) 策略優化
根據安全評估的結果每半年對系統策略及網絡系統進行優化設計,制定調整系統策略優化、網絡拓撲優化、安全域規劃與配置、IP規劃、VLAN優化等策略,并根據實際情況調整與實施。
(6) 應急預案與演練
根據數據中心的現狀,模擬實際災難發生場景,提供各種應急預案,經過采購人討論,協助采購人實施演練。
(7) 培訓
運維服務期內,安排以運維管理、安全為主題的培訓,數量為4~5人次,按要求制定相應的培訓計劃。
(8) 資料收集存檔
參與機房運維涉及的專業第三方機構合同的起草、談判,與采購人一起對第三方機構進行管理。整理收集涉及到的第三方合同,中間文檔、過程記錄,備查,按照采購人規定進行提交。
3.9 應急保障措施和組織
3.9.1 應急響應系統
運維團隊在處理緊急情況和重大事項時,會啟用應急指揮系統:
接口人:應用系統下,各個相關方的固定接口人,一般為項目經理
運維團隊:事故發生期間提供直接的技術咨詢、指導服務,負責直接處理故障。
二線專家:嚴重事件由承保的第三方服務商或原廠商的二線專家最快速度到達現場處理事故。
3.9.2 應急響應過程
應急響應過程劃分為四個主要階段:應急準備、監測與預警、應急處置措施和總結改進。
a)應急準備階段的工作包括:組建應急響應組織,確定應急響應制度,系統性識別運行維護服務對象及運行維護活動中可能出現的風險,定義應急事件級別,制定預案,開展培訓和演練;
b)監測與預警階段的工作包括:進行日常監測,及時發現應急事件并有效預警,進行核實和評估,以規定的策略和程序啟動預案,并保持對應急事件的跟蹤;
c)應急處置階段的工作包括:采取必要的應急調度手段,基于預案開展故障排查與診斷,對故障進行有效、快速的處理與系統恢復,及時通報應急事件,提供持續性服務保障,進行結果評價,關閉事件;
d)總結改進階段的工作包括:對應急事件發生原因、處理過程和結果進行總結分析,持續改進應急工作,完善信息系統。
3.9.3 制定應急保障預案及演練
為了應對業務系統可能出現的緊急故障,運維團隊將定期模擬故障演練服務。
運維團隊有一套整體的應急方案,以確保數據中心在系統發生突發事件或災難情況下能夠迅速恢復IT服務,從而保證系統業務的持續運行。根據普遍認可的最佳實踐指導原則,IT應急和IT災難恢復的定義應該是:
“計算機系統災難是指任何造成計算機系統不能處理業務的時間超過了可容忍程度的事故。應急方案是指計算機系統災難發生后,按照既定的應急恢復方案在一定時間內恢復系統運行和業務處理的過程。”
為了應對生產系統可能出現的緊急故障(重大、嚴重故障),數據中心將從事前預防和事后處理兩個方面制定緊急故障應處理預案。
(A)事前預防:
? 應急涉及到多個層面的配合,每方都需要指定專人負責在緊急故障發生時及時溝通
? 數據中心專家支持團隊進行系統風險評估,提出系統整改建議,制定緊急故障應急處理預案
? 進行一定次數的實際演練,包括后備系統切換測試、備份數據還原測試
? 對流程進行持續性跟蹤,系統出現變更后,重新評估流程的有效性
(B)事后處理:
? 響應時間:由工程師立即做出響應
? 故障修復:由經驗豐富的專家支持團隊提供專人支持,包括搭建測試環境、遠程和現場故障診斷和排除;同時啟動緊急故障處理流程,按既定程序做應急處理
應急演練:
應急演練計劃至少每季度一次進行測試和演練,以保證:
? 計劃內容能夠反映當前的狀況;
? 計劃的有效性和可操作性;
? 應急演練人員熟悉應急恢復流程。
所有測試和演練的結果應當依據事先確定好的標準,來判斷測試和演練是否成功。如:多長時間恢復服務,會出現多少問題,及問題的嚴重性等。在測試完成后應記錄下結果,并根據需要對應急恢復計劃進行修訂。針對演練或測試過程中出現的問題和失敗應該進行說明并體現在相應的改進計劃中。
3.10 IT運維服務工具
3.10.1 運維監控平臺
運維服務事件管理系統是支撐運維管理組織中各運維角色按照規定的運維事件流程開展運維活動的信息化系統。一方面,該系統要支持運維服務提供者對運維服務事件管理對象進行管理,以實現運維服務的能力;另一方面,要支持運維服務提供者按照商定的服務級別協議方便地向運維服務使用者提供運維服務;同時,要支持運維服務管理者對整個運維服務事件的考核、監督和評估。運維服務事件管理工具是構成運行管理體系不可缺少的元素,從被動管理向主動管理轉化的重要部分,為整個運行管理體系的高效實施奠定了基礎。
監控拓撲
當前數據中心采用了某運維監控平臺,對數據中心設備進行監測。用戶通過客戶端登錄運維監控平臺,查看所有被監控設備的運行情況。當前監控平臺支持機房環境、網絡設備、存儲設備、服務器設備、系統和數據庫等組件的監控,支持故障預警等服務。
主機監控
為確保數據中心服務器高速、穩定運轉,運維監控平臺從多個方面對主機服務器的硬件設備及操作系統進行監控管理和性能管理。它通過采集服務器的CPU、內存、硬盤、網卡等硬件的關鍵運行參數,以及軟件和應用程序的進程、服務、端口等的運行狀況,對系統日志進行分類掃描查詢。通過數據采集和分析,運維監控平臺能夠及時對影響用戶服務器運行性能的故障事件發送報警,并采取相應的故障處理措施,保證服務器的正常安全運行。
Windows服務器監控
運維監控平臺對服務器的監控支持Agent代理、SNMP和WMI非代理三大方式,方便不同用戶對服務器全面監控的需求。運維監控平臺服務器主要監測指標如下
Linux服務器監控
運維監控平臺對Linux服務器的監控支持Agent代理、SNMP和SSH、Telnet非代理三大方式,方便不同用戶對服務器全面監控的需求。運維監控平臺Linux服務器主要監測指標如下
網絡設備監控
運維監控平臺可以從各個方面對數據中心的網絡設備進行監測和管理,內容包括網絡設備的可用性、設備性能、流量管理等等。運維監控平臺的網絡設備管理系統支持的網絡設備,包括各種類型的交換機、路由器、防火墻、VoIP網關設備和其他啟用了SNMP協議的網絡設備。
運維監控平臺監測對象主要包括網絡設備(路由器、交換機、防火墻)的狀態,如端口,路由器CPU負載等,支持Cisco、華為、港灣、Juniper等各主流廠家的路由器、交換機,支持Netscreen、Cisco、天融信等主流廠商的防火墻等網絡安全設備。
? 網絡設備監控
? 安全設備監控
不同類型設備,所監控的內容會有不同。
應用監控
運維監控平臺的應用監測模塊可以全面智能的監測用戶各種與應用相關的服務。運維監控平臺對各種數據庫、中間件和WEB從應用可用性、系統資源占用和性能指標三個方面提供全面的監測管理策略,確保應用的運行正常。
? Oracle監控
? MS-SQL監控
監測器參數設置
監測平臺中所有監測器,都可以設置重試次數、超時等。
? 監測器間隔:5秒 至 指定小時,如每10秒監測一次,或每5小時監測一次;
? 監測器工作計劃:可以設置7X24或5X8工作時間;
? 錯誤后重試:任意重試次數,但建議不超過99;
? 錯誤頻率:監測器發生錯誤后,調整監測器的監測間隔,如CPU監測器原監測間隔為10分鐘一次,發生錯誤后,監測間隔調整為1分鐘一次;
? 故障處理記錄:針對監測器,記錄故障處理的內容;
? 閥值設置:最多可以設置8個閥值檢測條件,每個閥值檢測條件之間可以用:并、或的關系。
拓撲管理
自動發現能夠自動識別設備類型,包括各種服務器類型、路由器、交換機、等等,以及它們之間的關系,并且自動將它們存儲到公用對象庫中對應的類中。
? 故障告警管理
運維監控平臺故障管理系統是管理數據中心的設備、網絡和業務所出現的故障;幫助網管人員采集、統計和分析來自網絡各方面的報警信息和故障信息,準確預警、定位和解決網絡中的故障。
? 故障告警方式
運維監控平臺提供短信息、語音、聲音、遠程聲音、郵件、腳本等多種方式及時發出警報。可以及時通企業的網管人員發現、定位和處理故障,讓系統的管理從被動變為主動,可有效地預防故障發生,也可在故障發生時快速進行定位,及時處理好故障。
? 報警控制臺
關于對警報和故障的管理,運維監控平臺主要通過報警控制臺來進行。運維監控平臺報警控制臺包括四個方面:配置文件及接口數據、故障事件搜集、故障事件過濾、告警呈現。
用戶權限設計
運維監控平臺支持精細的用戶分級管理功能,用戶按照權限分為超級管理員和一般管理員兩類:超級管理員具備全部管理功能,可以為一般管理員配置不同的用戶名、密碼和權限;一般管理員具備部分管理功能(例如只讀)。對一般管理員的功能限制主要從兩方面來進行,一方面是管理對象權限設置,另一方面是管理功能權限設置,對于一般管理員的管理對象權限設置可以精確到對任意管理對象和管理對象權限的自由組合。
應用運維管理 AOM 邊緣數據中心管理 EDCM 運維
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。