大數據“復活”記
724
2025-03-31
前言
數據庫智能運維的核心的功能是運維,數據庫運維是系統的本職工作必須做好,而智能則主要體現在“易用性”上。GaussDB(DWS)數據庫智能運維系統將通過一系列手段,優化數據庫的運維效率和用戶體驗。包括但不僅限于,監控數據可視化,根因分析智能化以及運維過程自動化。通過數據庫運維逐步的智能化改造,提高數據庫運維工具的易用性,從而節省運維人員在運維過程中的時間消耗。
本文將從運維數據可視化和提高運維工具的易用性角度來嘗試分析如何構建GaussDB(DWS)數據庫智能運維系統的頁面。
數據庫智能運維系統頁面邏輯
通過分析數據庫智能運維系統的用戶角色,我們發現對于數據庫系統存在三種用戶角色,應用開發,SRE與DBA。他們關注數據庫運維的不同側面,根據用戶角色所處的位置不同,我們又可以把他們區分為前臺用戶和后臺用戶,本文將重點討論SRE和DBA角色相關的后臺用戶的使用需求及頁面。SRE和DBA兩個角色同屬于后臺運維角色而又有所區別,一個關注于數據庫故障發現,一個專注于數據庫故障根因定位。但是,在現網場景中,為了節省人力成本,SRE角色和DBA角色往往是同一個人,他需要整體關注數據庫的方方面面。因此,我們在設計頁面時特地將頁面抽象為主題頁面和工具頁面兩種類型,從而兼顧了這兩種角色在發現問題,定位問題過程中,思維的連續性。
這里的主題頁面與工具頁面的定義如下:
主題頁面
承載某個監控主題(集群概覽,節點概覽,實例概覽,查詢,會話,事務,等等)
負責圍繞監控主題組織數據展示數據
幫助用戶快速認知該主題的系統狀態和定位問題根因
工具頁面
幫助用戶簡化某個場景的問題發現和根因定位(比如歷史曲線對工具)
無固定頁面入口,多以彈窗的形式出現
用完即銷毀,工具式取用,不存儲任何持久化數據
我們將嘗試以主題頁面為骨架,以工具頁面為血肉,逐步把用戶的運維場景和需求以工具頁面的形式固化下來,豐富GaussDB(DWS)數據庫智能運維系統目前的監控運維能力。未來可以進一步將其中一些成熟工具或者場景自動化,逐步實現云上數據庫全自動化運維。
數據庫智能運維系統主題頁面組織形式
之前,簡單介紹了GaussDB(DWS)數據庫智能運維系統的頁面設計思想,下面我們將展開來看看每一個類型頁面的具體設計方案。GaussDB(DWS)數據庫屬于MPP DB分布式數據庫,這種集群結構復雜,層次維度多,物理維度數據和業務維度數據混雜,比較難以完整的展現集群的狀態。因此,我們通過分析,梳理了如下3個類別的頁面,力爭給用戶呈現全面有內在邏輯的頁面內容組織形式。
故障發現頁面
該頁面采用層次化設計,將集群信息按照層次化聚合的方式組織在一系列的頁面面結構中。采用總覽和下鉆細分頁面的設計邏輯,將集群與節點,集群與實例,集群業務負載與數據庫和用戶的關系分門別類的展示出來。通過如下圖所示的這種層次化組織形式,用戶可以通過簡單的頁面下鉆就能直接定位到存在問題的頁面。
下面我們展開介紹一下每個頁面:
集群概覽:作為整個集群監控頁面的首頁,將在該頁面上整體的展示集群的運行時狀態。該頁面將有4個部分組成,集群資源,集群負載,節點拓撲,實例拓撲,4個部分分別提供各自維度的聚合信息,并展現在頁面上。
集群資源:展示集群整體資源的實時和歷史消耗信息。(集群資源包括:CPU,內存,磁盤,磁盤I/O,網絡I/O)
集群負載:展示數據庫集群的業務負載情況,包括,并發連接數,并發查詢數,慢SQL,工作負載隊列等聚合信息。支持按數據庫分類,點擊數據庫名稱可以下鉆到下一層數據庫概覽頁面展示更詳細的信息。
數據庫概覽:展示某個數據庫的概覽信息,包括,并發連接數,并發查詢數,慢SQL,工作負載隊列等聚合信息。
節點列表:展示集群的物理拓撲結構,將提供兩種形式的展示方式(列表,拓撲圖),每一個節點名稱點擊后可以下鉆,下鉆頁面為節點概覽頁面,該頁面可以展示節點的更多信息。
節點概覽:展示當前節點的實時和歷史資源消耗信息。并且提供過去24小時的節點概覽統計報表,幫助用戶分析節點資源水位。也會展示分布在當前節點上的實例信息,以列表的形式展示出來,下鉆后跳轉實例概覽頁面。
實例列表:展示集群的邏輯拓撲結構,將提供兩形式的展示方式(列表,拓撲圖),每一個實例點擊后可以下鉆,下鉆頁面為實例概覽頁面,該頁面將展示當前實例的詳細信息。
實例概覽:展示當前實例的業務負載信息,例如,QPS,相應時間,實時查詢,實時查詢統計等信息。
通過這種頁面組織形式,用戶可以從集群概覽頁面,一步一步下鉆到自己感興趣的資源上,從而獲得更詳細的故障信息。
除了通過集群概覽發現問題之外,告警也是一個非常重要的問題發現主題頁面。通過內置或者用戶配置的告警規則,我們可以過濾集群的運行時數據,發現違反規則的數據,從而觸發告警。告警信息將會被顯示在告警展示頁面上,該頁面將提供按時間和優先級排序的告警信息,可以幫助用戶/SRE快速發現問題。
根因分析頁面
業務側的根因分析頁面設計,主要圍繞數據庫的相關特性展開。因為數據庫的復雜性和執行過程中的不確定性,因此我們無法簡單的按照SQL執行的順序串起整個根因分析流程。結合友商經驗,我們決定采用分特性的方式組織根因分析的頁面結構。
下面我們展開介紹一下每個頁面:
會話分析:
查詢分析:該頁面主要可以展示集群中實時和歷史運行的每一條SQL語句的信息,給用戶提供一個功能強大的SQL執行信息檢索平臺,幫助用戶快速獲取足夠的信息定位問題。
事務分析:
存儲分析:
可靠性分析:
統計報表:
數據庫智能運維系統工具頁面
我們認為運維工具是SRE和DBA運維經驗的固化,因此運維工具具有針對性和完整性,一個運維工具針對一類運維問題的定位和分析。因此,我們計劃把運維工具以彈出窗口的形式提供出來,有需要時就可以出現,方便使用和擴展。運維工具還處在設計開發過程中,我們需要與SRE,DBA深度合作,才能開發出符合用戶需求的工具,逐步豐富運維工具箱。
這里我僅僅舉兩個運維工具的例子權當拋轉引玉:
曲線對比工具:該工具可以提供指定指標數據的對比,多圖同列,昨日同期等等,曲線比較功能。
慢查詢工具:該工具可以提供指定SQL語句的一段時間內的調用次數,返回行數,總耗時,阻塞時間等的統計信息展示,幫助用戶分析慢查詢的特點。
本文是介紹云上的數據庫監控運維體系設計的核心概念的三篇文章之三,本文嘗試從概念和邏輯上推導GaussDB(DWS)數據庫智能運維系統監控目標,監控指標與承載頁面的關系。有了這個基本關系框架,我們后續所需要做的工作和目標都變得清晰可見。愿我們的期待早日成為現實,讓云端的數據庫運維工作變得更輕松與智能。
想了解GuassDB(DWS)更多信息,歡迎微信搜索“GaussDB DWS”關注微信公眾號,和您分享最新最全的PB級數倉黑科技,后臺還可獲取眾多學習資料哦~
數據倉庫服務 GaussDB(DWS) 數據庫 運維
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。