《企業私有云建設指南》一2.6 監控管理
2.6 監控管理
2.6.1 監控指標的設定和調整優化
當虛擬化和云計算技術被企業和數據中心廣泛利用后,其對現有硬件提供更高的資源利用率和降低企業應用成本成為人們談論的焦點,通常物理服務器的資源利用率只有10%~20%,因此通過虛擬化整合資源利用率低的服務器將非常有意義。
服務器虛擬化技術在近幾年已經發生了根本性改變,現在虛擬化已經被視為數據中心實現靈活和彈性的必需品,虛擬化開銷較低的服務器已經沒有太大意義,越來越多的組織開始虛擬化整個業務乃至數據中心,這樣組織可以將所有宿主服務器看作一個計算資源池,實現按需分配資源。
為了確保存儲和服務器能應付不斷增長的業務需求,對磁盤資源、內存和CPU資源、宿主操作系統進行監控和調整是必要的。
1.磁盤資源
服務器硬盤是磁盤資源中最慢的組件,在企業數據中心,注意仔細設計存儲子系統,不要讓它成為主要性能瓶頸,而最理想的辦法是使用SAN,即使預算不允許,也要想辦法確保磁盤資源爭用不會導致虛擬機(VM)癱瘓。
首先應將宿主操作系統安裝到專用硬盤上,注意不是專用卷,確保宿主操作系統不會與虛擬機搶奪磁盤資源。如果托管服務器可以連接外置存儲,還可以考慮將宿主操作系統的分頁文件移動到外置存儲的專用驅動器上。
RAID陣列是滿足虛擬服務器性能所必需的,至少應該選擇使用RAID1,但“RAID1+RAID0”(RAID10)是更好的選擇,因為它能提供容錯,并且性能開銷也比RAID5小。如果可以的話,給每個虛擬服務器分配一個專用磁盤陣列最好。
雖然存儲陣列類型很重要,但陣列使用的硬盤也同樣重要,如果兩個或更多虛擬服務器共享一個存儲陣列,那么應該考慮使用10k RPM的硬盤,它比7500 RPM的硬盤要貴一些,但性能表現卻要好很多,當然這需要用戶在性能和成本之間進行平衡。
另外不要忘了使用可熱插拔的SCSI硬盤,不然換一塊硬盤就得關閉系統,尤其是當多個虛擬服務共享一個存儲陣列時,其影響面非常大。
不管使用哪種存儲設備類型,都要確保已安裝了合適的驅動。比如可以讓Windows系統自動識別存儲設備,雖然這樣做本身并沒有問題,存儲設備也可 ?? 能會工作得很正常,但性能表現就不是很理想了。
使用固定大小的虛擬硬盤來配置虛擬服務器會獲得額外的性能提升。雖然動態擴展虛擬硬盤很方便,但對服務器的性能是有影響的。
磁盤I/O性能監控的指標主要包括以下七個。
指標1:每秒I/O數(IOPS或TPS)
對于磁盤來說,一次磁盤的連續讀或者連續寫稱為一次磁盤I/O,磁盤的IOPS就是每秒磁盤連續讀次數和連續寫次數之和。當傳輸小塊不連續數據時,該? 指標有重要參考意義。
指標2:吞吐量
吞吐量即硬盤傳輸數據流的速度,傳輸數據為讀出數據和寫入數據的和。其單位一般為kbit/s、MB/s等。當傳輸大塊不連續數據時,該指標有重要參考作用。
指標3:平均I/O數據尺寸
平均I/O數據尺寸為吞吐量除以I/O數目,該指標對揭示磁盤使用模式有重要意義。一般來說,如果平均I/O數據尺寸小于32KB,可認為磁盤使用模式以隨機存取為主;如果平均每次I/O數據尺寸大于32KB,可認為磁盤使用模式以順序存取為主。
指標4:磁盤活動時間百分比
磁盤處于活動時間的百分比即磁盤利用率,磁盤在數據傳輸和處理命令(如尋道)時處于活動狀態。磁盤利用率與資源爭用程度成正比,與性能成反比。也就是說磁盤利用率越高,資源爭用就越嚴重,性能就越差,響應時間就越長。一般來說,如果磁盤利用率超過70%,應用進程將花費較長的時間等待I/O完成,因為絕大多數進程在等待過程中被阻塞或休眠。
指標5:服務時間
服務時間即磁盤讀或寫操作執行的時間,包括尋道、旋轉時延和數據傳輸等時間。其大小一般與磁盤性能有關,CPU/內存的負荷也會對其有影響,請求過多也會間接導致服務時間的增加。如果該值持續超過20ms,一般認為會對上層應用產生影響。
指標6:I/O等待隊列長度
I/O等待隊列長度即待處理的I/O請求數目,如果I/O請求壓力持續超出磁盤處理能力,該值將增加。如果單塊磁盤的隊列長度持續超過2,一般認為該磁盤存在I/O性能問題。需要注意的是,如果該磁盤為磁盤陣列虛擬的邏輯驅動器,需要再將該值除以組成這個邏輯驅動器的實際物理磁盤數目,以獲得平均單塊硬盤的I/O等待隊列長度。
指標7:等待時間
等待時間指磁盤讀或寫操作等待執行的時間,即在隊列中排隊的時間。如果I/O請求持續超出磁盤處理能力,意味著來不及處理的I/O請求不得不在隊列中等待較長時間。
通過監控以上指標,并將這些指標數值與歷史數據、經驗數據以及磁盤標稱值對比,必要時結合 CPU、內存、交換分區的使用狀況,不難發現磁盤I/O潛在或已經出現的問題。但如何避免和解決這些問題呢?這就需要利用磁盤I/O性能優化方面的知識和技術了。限于篇幅,在這里僅列出一些常用的優化方法以 ? ? ? ? 供讀者參考:
1)調整數據布局,盡量將I/O請求較合理地分配到所有物理磁盤中。
2)對于RAID磁盤陣列,盡量使應用程序I/O等于條帶尺寸或者為條帶尺寸的倍數。并選取合適的RAID方式,如RAID10、RAID5。
3)增大磁盤驅動程序的隊列深度,但不要超出磁盤的處理能力,否則部分I/O請求會因為丟失而重新發出,這將會降低性能。
4)應用緩存技術減少應用存取磁盤的次數,緩存技術可應用在文件系統級別或者應用程序級別。
5)由于大多數數據庫中已包括經優化后的緩存技術,數據庫I/O宜直接存取原始磁盤分區(raw partition)或者利用繞過文件系統緩存的DIO(Direct I/O)技術。
6)利用內存讀寫帶寬遠比直接磁盤I/O操作性能優越的特點,將頻繁訪問的文件或數據置于內存中。
2.內存和CPU資源
物理內存是服務器虛擬機容納數量的最大影響因素,應盡可能安裝最多的內存,最好是主板支持的內存上限。此外,應給虛擬機分配合適的內存,給宿主操作系統預留足夠的內存,避免內存不夠用或過度分配。
有些虛擬化產品不限制管理員過度分配服務器的CPU資源,它們允許用戶分配比物理CPU核心還多的虛擬CPU給虛擬機。為了獲得最佳性能,宿主操作系統至少要預留兩個CPU核心,以確保分配的每個虛擬CPU都有對應的物理CPU核心,否則就會出現“資源赤字”。
請記住,這些建議是基于最佳性能角度考慮的。雖然有時可以分配比物理CPU核心還多的虛擬CPU給虛擬機,性能也能維持在一個可接受的水平,但它一定不是最優的狀態。一般建議CPU可以超配,但內存最好不要超配。
CPU和內存性能監控關鍵指標說明如下。
CPU使用率:指用戶進程與系統進程消耗的CPU時間百分比,長時間情況下一般可接受的上限不超過85%。
判斷CPU是否是瓶頸的方法:一般情況下當CPU滿負荷工作時,有時候并不能判定為CPU出現瓶頸,比如Linux總是試圖要CPU盡可能的繁忙,使得任務的吞吐量最大化,即CPU盡可能最大化使用。因此,一般主要從兩方面來判斷CPU是否為瓶頸:一是CPU空閑持續為0,二是運行隊列大于CPU核數(經驗值為3~4倍),即可判定存在瓶頸。CPU的高消耗主要由什么引起的?可能是應用程序不合理,也可能是硬件資源不足,需要具體問題具體分析,比如問題由SQL語句引起,則需要跟蹤并優化引起CPU使用過高的SQL語句。
內存利用率:內存利用率=(1-空閑內存/總內存大小)×100%。
判斷內存是否是瓶頸的方法:一般至少有10%可用內存,內存使用率可接受上限為85%。當空閑內存變小時,系統開始頻繁地調動磁盤頁面文件,空閑內存過小可能由內存不足或內存泄漏引起,需要根據系統實際情況監控分析和優化。
3.宿主操作系統
服務器虛擬化優化常常被忽視的一個方向是宿主操作系統本身對硬件資源的需求。不是所有虛擬化產品都依賴于傳統的Windows服務器操作系統。例如,Hyper-V服務器是一個專門的、獨立的產品,它比完整的Windows服務器操作系統的“身材”要小巧得多,因此它對硬件資源的需求就更少。
如果目標是最大化性能,那么最好使用獨立的虛擬化產品,可以是VMware、Hyper-V或其他VMware類似的產品,但有時系統管理需求可能會要求你在宿主服務器上運行傳統操作系統,在這種情況下,你可以采取一些措施來減少宿主操作系統的開銷。
首先,確定宿主操作系統中的哪些進程是必需的,哪些是可有可無的,哪些是應該停止的,在任何情況下,宿主操作系統都應該只運行那些關鍵的應用,如備份代理或防病毒軟件,其他非必需應用應該關閉或卸載。
其次,確保宿主操作系統上的防病毒軟件不要掃描虛擬硬盤或與虛擬機相關的任何文件。掃描這些文件不但沒有實際意義,而且會對服務器的性能造成影響,最糟糕的是,防病毒軟件還可能損壞虛擬硬盤文件。
另一個優化技術是更改宿主操作系統的處理器調度方法,Windows服務器提供了一個設置,允許你調整處理器調度以優先滿足運行中的程序或后臺服務。對于虛擬主機,應該總是優先滿足后臺服務的需要。
最后,如果宿主服務器可以自動執行碎片整理,那么應該將碎片整理進程安排在空閑時段執行。同樣,對虛擬機執行自動化碎片整理也應該安排在非高峰時段進行,同時要避免多個虛擬機同時執行碎片整理。
隨著虛擬主機處理的負載越來越多,優化宿主服務器的虛擬化性能變得比以往任何時候都重要,通過優化可以確保資源池得到最有效的利用。
任務調度 虛擬化
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。