從部署和運維說說DLI(2)
DLI是支持多模引擎的Serverless大數據計算服務,免運維也是其作為Serverless云服務面向客戶時的一個重要的特性。那么對于服務本身我們是如何實現整個服務的運維呢?今天我們來說說DLI是如何實現監控告警來提升整體運維能力,從而為客戶更好的提供Serverless的DLI。
上圖是DLI服務的整體部署架構,作為Serverless服務其全面擁抱云原生技術,無論是對外提供任務管理的微服務還是最終執行任務的計算單元,其都是基于Kubernetes來部署,這也更好的實現了Serverless的快速彈性伸縮。
對于DLI服務的監控告警我們當前主要從以下幾個方面來考慮:
1.?????? 全局維度,主要是整體API的QPS、成功率和響應時延
DLI作為Serverless大數據計算服務,其對外均以REST API的形式提供服務,因此API的QPS和響應時延直接反映了服務對外的能力,而成功率更是服務SLA的直接體現。
2.?????? OS維度,主要是容器宿主的CPU使用率、內存使用率、磁盤使用率、上下行流量
無論部署的架構、技術如何演進,對基礎資源的監控都是最基本和必須的。
3.?????? 容器維度,主要是CPU使用率、內存使用率、K8s空間和用戶空間使用率、POD的健康度
容器是虛擬機的演進,因此對于容器的資源監控也是最基本的。我們的微服務或計算單元都是以容器運行在Kubernetes集群上,因此對于POD的健康狀態的監控也是必須的。
4.?????? 微服務維度,主要是流量、性能、健康檢查和關鍵日志等
監控是為了更好的發現和解決問題,因此核心還是業務層面的監控。DLI是一個復雜的分布式Serverless應用,其內部根據不同領域模型又分為不同的微服務,因此對于微服務內部的流量、性能等的監控則是衡量各微服務可靠性的重要指標。一個好的系統往往有完善的日志體系,通過對關鍵日志進行監控則能夠幫助我們快速發現和定位問題,因此這也是我們在業務維度的監控上的重點。
上述幾個方面的監控,是我們實現云服務自動化運維的一些關鍵步驟,通過這些我們能夠做到更好的先于客戶發現問題,保障服務SLA。當然這些遠遠不夠,正所謂“路漫漫其修遠兮,吾將上下而求索”,更加自動化、智能化的運維才是Serverless服務的目標。
EI企業智能
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。