大數據“復活”記
1023
2025-03-31
目的:通過日常巡檢減少系統隱患,確保系統能夠長期安全、穩定、可靠地運行,降低維護成本,確保系統進行正常的業務處理。
巡檢范圍及內容:管控面巡檢、租戶面巡檢。
租戶面巡檢項清單:
序號
巡檢項ID
巡檢項名稱
檢查標準
1
85100
CheckNTPD
檢查NTPD服務
檢查系統NTPD服務,如果服務開啟則檢查項通過,否則檢查項不通過。
2
85102
檢查時區一致性
檢查集群內各節點時區,如果時區一致則檢查通過,否則檢查項不通過
3
85116
檢查關鍵進程omm_adj的值
檢查所有關鍵進程,如果所有關鍵進程omm_adj值為0,則通過,否則不通過
4
85135
檢查是否存在僵尸進程
如果存在5個以上的僵尸進程,檢查不通過,否則通過。
5
85208
檢查磁盤使用率
檢查磁盤以上指定目錄(目錄列表)使用率,如果使用率超過70% 報warning 超過90%則檢查項不通過,集群路徑下檢查GAUSSHOME/PGHOST/GPHOME/GAUSSLOG/tmp/data路徑的剩余空間,不滿足閾值則檢查項不通過
6
85300
檢查集群狀態
檢查CM進程存在,否則檢查不通過;檢查fenced UDF狀態,如果為down則報warning;檢查集群狀態,如果為Normal則檢查項通過,否則檢查項不通過
7
85302
檢查數據庫集群參數
檢查CN檢查共享緩沖區大小和Sem參數
主DN實例檢查共享緩沖區大小和最大連接數
共享緩沖區需要大于128kB且大于shmmax且大于shmall*PAGESIZE
若存在CN,則Sem值需大于(DN最大連接數+150)/16向上取整
以上項完全滿足則檢查項通過,否則檢查項不通過
8
85306
檢查環境變量
檢查節點環境變量($GAUSSHOME、$LD_LIBRARY_PATH、$PATH),檢查CMS/CMA/GTM/CN/DN進程的環境變量。如果環境變量存在、配置正確且一致,進程的環境變量存在則檢查項通過,否則檢查項不通過
9
85307
檢查gaussdb版本
檢查各個節點gaussdb版本是否一致,如果版本一致則檢查項通過,否則檢查項不通過
10
85309
檢查只讀模式
檢查集群中所有含CN節點上default_transaction_read_only值若為為off則檢查通過,否則不通過
11
85310
檢查Catchup
檢查gaussdb進程堆棧是否能搜索到CatchupMain函數,若搜索不到則檢查項通過,否則檢查項不通過
12
85315
檢查om_moitor進程
檢查各個節點om_monitor進程是否存在,若各節點都存在則檢查項通過,否則檢查項不通過。
13
85317
檢查系統表膨脹
檢查系統表是否膨脹,若檢查結果大于50報warning,大于100則不通過,否則檢查通過
14
85320
檢查各節點間互信
檢查各個節點的是否互信,若有節點未互信則檢查不通過,否則檢查通過
15
85321
檢查集群配置參數
檢查集群配置類參數(ip類, Port類,路徑類參數)在postgresql.conf或者pgxc_node的配置,必須和靜態配置文件一致,不一致則報錯。
16
85323
檢查表空間
檢查集群用戶對tablespace父目錄是否具有操作權限(讀,寫,執行),如果有檢查通過,否則檢查不通過。
17
85325
檢查負載均衡狀態
查詢Balance狀態,如果查詢結果為YES則檢查項通過,
如果不是Yes則報Warning,如果查詢失敗則檢查項不通過。
18
85326
檢查cm_server備機狀態
如果查詢結果為Standby則檢查項通過,否則報出Warning
19
85329
檢查DN路徑
同一掛載點下,如果有多個DN實例,檢查不通過。
20
85332
檢查重要文件是否存在
檢查conf文件、control文件,data下關鍵目錄是否存在,若有文件存在,檢查通過,否則檢查不通過。
21
85345
檢查gaussdb完整性
檢查各個節點gaussdb的sha256值,若各節點一致則檢查項通過,否則檢查項不通過
22
85404
檢查CN個數
檢查集群CN實例個數,如果CN個數大于1,小于20則檢查項通過,否則檢查項不通過
23
85407
檢查comm_max_datanode參數
檢查最大DN數,若最大DN數小于當前DN數的2倍報warning,否則檢查項通過
24
85408
檢查殘留兩階段事務
檢查pgxc_prepared_xacts參數,如果不存在二階段事物則檢查項通過,否則檢查項不通過
25
85409
檢查pgxc_group表中需要重分布的個數
檢查pgxc_group表中需要重分布的個數,檢查結果為0則通過,否則不通過
26
85410
檢查集群是否被鎖
檢查集群是否被鎖,若集群被鎖則不通過,否則檢查項通過
27
85412
檢查數據庫連接
檢查能否連接數據庫,如果連接成功則檢查項通過,否則檢查項不通過
28
85419
檢查Pooler使用量
檢查Pooler使用量,若超過33000則報NG,超過28000報Warning,否則檢查通過
29
85421
檢查guc參數一致性
檢查各CN/DN實例的guc參數是否一致,若全部一致則檢查通過,否則檢查不通過
30
85426
檢查TD數據庫中orc表date類型列
存在(TD模式數據庫下的orc表,且包含date類型的列)此用法則報NG,不存在則OK。
31
85428
檢查hash index語法
如果存在hash index則報NG,否則報OK
32
85429
Node group編碼格式檢查
存在非SQL_ASCII字符的node group名稱則報NG,不存在報OK
33
85430
檢查創建視圖
創建視圖時,如果查詢語句中含有子查詢,并且子查詢結果查詢解析&重寫之后存在別名重復,檢查不通過,否則檢查通過。
34
85431
檢查重分布殘留的臨時表
檢查數據庫中是否存在重分布殘留的臨時表,若不存在則檢查通過,否則檢查不通過
35
85435
檢查是否開啟TD兼容特性
檢查是否開啟與TD數據庫相應的兼容特征,如果未開啟,則檢查通過,否則檢查不通過
36
85437
檢查單分區的記錄數
如果有單分區記錄數偏少的表,報warning,否則檢查通過
37
85438
檢查元數據一致性
檢查系統表元數據是否一致,如果一致,則檢查通過,否則檢查不通過。
38
85439
檢查pg_catalog
檢查pg_catalog中是否有用戶自定義的數據庫對象,如果有檢查不通過,否則檢查通過。
39
85440
檢查bcm追趕
如果存在catchcup檢查不通過,否則檢查通過。
40
85441
檢查nodegroup
如果有installation, query, optimal的group_name,檢查不通過,否則檢查通過。
41
85448
檢查proacl信息
pg_proc系統表中proacl中存在純數字用戶名時報NG,其他情況下報OK。
42
85449
檢查內存泄漏
在各個cn和dn實例,
other_used_memory/process_used_memory大于40%檢查報warning
other_used_memory/process_used_memory大于70%檢查報NG
dayamic_used_memory/max_dynamic_memory大于60%檢查報wanring
dynamic_used_memory/max_dynamic_memory大于100%檢查報NG
dynamic_used_shrctx/dynamic_used_memory大于50%檢查報warning
43
85450
檢查cn和dn之間元數據一致性
檢查系統表在cn和dn之間數據是否一致,一致則檢查通過,否則檢查不通過
44
85453
檢查DDL是否能夠執行成功
啟動事務創建、刪除schema和表,如果事務能夠提交,檢查通過,否則檢查不通過
45
85459
檢查每個實例的系統表容量
如果每一塊磁盤的剩余容量大于該磁盤上所有實例的系
統表容量總和則檢查項通過,否則檢查項不通過
46
85461
檢查用戶自定義函數返回值類型
用戶自定義函數包含非法返回類型檢查不通過,否則通過
47
85500
檢查網絡通暢
檢查集群內所有節點的互通性,如果各節點所有IP均可ping通則檢查項通過,否則檢查項不通過
48
85600
檢查DN磁盤空間使用率
檢查磁盤DN目錄使用率,如果使用率低于90%則檢查項通過,否則檢查項不通過
49
85602
檢查日志目錄磁盤使用率
檢查磁盤日志目錄空間和索引使用率,如果使用率低于90%則檢查項通過,否則檢查項不通過
50
85603
檢查臨時目錄磁盤使用率
檢查磁盤臨時目錄磁盤和索引使用率,如果使用率低于90%則檢查項通過,否則檢查項不通過
使用FusionCare巡檢:
環境信息添加請參考《華為云Stack 8.0.3 數據倉庫服務(DWS)運維指南 01》指導手冊使用FusionCare巡檢章節進行添加。
創建巡檢任務:
前提條件
(1)已登錄ManageOne運維面。
(2)已完成添加環境信息和節點,參考添加環境信息和添加節點章節。
1.在ManageOne運維面,單擊“首頁”頁面“常用鏈接”區域的“FusionCare(巡檢) > 待巡檢region名稱”,進入FusionCare系統。
2.選擇“健康檢查 > 任務列表”,單擊頁面左上角的“新建”,進入健康檢查配置頁面。
注1:日常巡檢任務策略可選立即執行、定時任務、周期任務
注2:執行巡檢任務的目標客戶云。管理側:勾選"DWS”,巡檢項勾選“全選”。租戶側管理節點:勾選"DWS”,巡檢項勾選“全選”。
單擊“立即創建”,完成巡檢任務創建。待巡檢完成后可界面查看本次巡檢任務中的故障詳情或者通過導出巡檢報告對巡檢結果進行分析。
其他相關操作:
(1)重新巡檢:在任務詳情頁面的右上角,單擊“重新巡檢”可重新巡檢本任務。
(2)刪除:在任務詳情頁面的右上角,單擊“刪除”可刪除本巡檢任務(只可刪除完成后的任務,正在進行的任務不可刪除)。
問題修復案例介紹:
問題修復案例1:
報告分析中檢查NTPD服務檢查結果不合格,可能影響擴容/升級/節點替換失敗,數據庫業務可能出現報錯,NTP(自動校時)服務可保證所有機器系統時間一致,從而保證數據庫全局性業務和數據同步功能正常,按照處理建議:
從容器登錄dws的任意檢查失敗實例節點,sh connectTool.sh -n 集群實例名稱
以集群名稱dwstest06312restore為例:
sh connectTool.sh -n dwstest06312restore
cd opsTool/;./connectTool.sh? -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone進入集群節點,對當前問題節點進行修復
1.開啟ntpq服務(suse 11:service ntp start;Suse12、euleros、centos、redhat: service ntpd start),并配置校時服務器.
重新巡檢或使用/usr/sbin/ntpq -p 檢查ntpd服務是否開啟.
重新巡檢對報告進行分析
問題修復案例2:
檢查只讀模式未通過,分析當前集群只讀模式的原因,待原因定位清楚后,需要對當前不通過進行整改,否則只讀模式會導致數據庫無法寫入數據,影響變更和數據庫功能,依照處理建議:
從容器登錄dws的任意檢查失敗實例節點,sh connectTool.sh -n 集群實例名稱
以集群名稱wstest06312restore為例:
sh connectTool.sh -n dwstest06312restore
cd opsTool/;./connectTool.sh? -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone進入集群節點
ssh `hostname -i` 進入沙箱。
1.先定位集群只讀原因之后,使用GUC工具關閉只讀模式:gs_guc set -Z coordinator -N all -I all -c default_transaction_read_only=off;gs_guc set -Z datanode -N all -I all -c default_transaction_read_only=off
2.重啟集群:cm_ctl stop && cm_ctl start
3.修復后重新巡檢對報告進行分析
EI企業智能 Gauss AP 數據倉庫服務 GaussDB(DWS)
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。