GaussDB(DWS)巡檢之日常巡檢介紹

      網友投稿 1023 2025-03-31

      目的:通過日常巡檢減少系統隱患,確保系統能夠長期安全、穩定、可靠地運行,降低維護成本,確保系統進行正常的業務處理。

      巡檢范圍及內容:管控面巡檢、租戶面巡檢。

      租戶面巡檢項清單:

      序號

      巡檢項ID

      巡檢項名稱

      檢查標準

      1

      85100

      CheckNTPD

      檢查NTPD服務

      檢查系統NTPD服務,如果服務開啟則檢查項通過,否則檢查項不通過。

      2

      85102

      檢查時區一致性

      檢查集群內各節點時區,如果時區一致則檢查通過,否則檢查項不通過

      3

      85116

      檢查關鍵進程omm_adj的值

      檢查所有關鍵進程,如果所有關鍵進程omm_adj值為0,則通過,否則不通過

      4

      85135

      檢查是否存在僵尸進程

      如果存在5個以上的僵尸進程,檢查不通過,否則通過。

      5

      85208

      檢查磁盤使用率

      檢查磁盤以上指定目錄(目錄列表)使用率,如果使用率超過70% 報warning 超過90%則檢查項不通過,集群路徑下檢查GAUSSHOME/PGHOST/GPHOME/GAUSSLOG/tmp/data路徑的剩余空間,不滿足閾值則檢查項不通過

      6

      85300

      檢查集群狀態

      檢查CM進程存在,否則檢查不通過;檢查fenced UDF狀態,如果為down則報warning;檢查集群狀態,如果為Normal則檢查項通過,否則檢查項不通過

      7

      85302

      檢查數據庫集群參數

      檢查CN檢查共享緩沖區大小和Sem參數

      主DN實例檢查共享緩沖區大小和最大連接數

      共享緩沖區需要大于128kB且大于shmmax且大于shmall*PAGESIZE

      若存在CN,則Sem值需大于(DN最大連接數+150)/16向上取整

      以上項完全滿足則檢查項通過,否則檢查項不通過

      8

      85306

      檢查環境變量

      檢查節點環境變量($GAUSSHOME、$LD_LIBRARY_PATH、$PATH),檢查CMS/CMA/GTM/CN/DN進程的環境變量。如果環境變量存在、配置正確且一致,進程的環境變量存在則檢查項通過,否則檢查項不通過

      9

      85307

      檢查gaussdb版本

      檢查各個節點gaussdb版本是否一致,如果版本一致則檢查項通過,否則檢查項不通過

      10

      85309

      檢查只讀模式

      檢查集群中所有含CN節點上default_transaction_read_only值若為為off則檢查通過,否則不通過

      11

      85310

      檢查Catchup

      檢查gaussdb進程堆棧是否能搜索到CatchupMain函數,若搜索不到則檢查項通過,否則檢查項不通過

      12

      85315

      檢查om_moitor進程

      檢查各個節點om_monitor進程是否存在,若各節點都存在則檢查項通過,否則檢查項不通過。

      13

      85317

      檢查系統表膨脹

      檢查系統表是否膨脹,若檢查結果大于50報warning,大于100則不通過,否則檢查通過

      14

      85320

      檢查各節點間互信

      檢查各個節點的是否互信,若有節點未互信則檢查不通過,否則檢查通過

      15

      85321

      檢查集群配置參數

      檢查集群配置類參數(ip類, Port類,路徑類參數)在postgresql.conf或者pgxc_node的配置,必須和靜態配置文件一致,不一致則報錯。

      16

      85323

      檢查表空間

      檢查集群用戶對tablespace父目錄是否具有操作權限(讀,寫,執行),如果有檢查通過,否則檢查不通過。

      17

      85325

      檢查負載均衡狀態

      查詢Balance狀態,如果查詢結果為YES則檢查項通過,

      如果不是Yes則報Warning,如果查詢失敗則檢查項不通過。

      18

      85326

      檢查cm_server備機狀態

      如果查詢結果為Standby則檢查項通過,否則報出Warning

      19

      85329

      檢查DN路徑

      同一掛載點下,如果有多個DN實例,檢查不通過。

      20

      85332

      檢查重要文件是否存在

      檢查conf文件、control文件,data下關鍵目錄是否存在,若有文件存在,檢查通過,否則檢查不通過。

      21

      85345

      檢查gaussdb完整性

      檢查各個節點gaussdb的sha256值,若各節點一致則檢查項通過,否則檢查項不通過

      22

      85404

      檢查CN個數

      檢查集群CN實例個數,如果CN個數大于1,小于20則檢查項通過,否則檢查項不通過

      23

      85407

      檢查comm_max_datanode參數

      檢查最大DN數,若最大DN數小于當前DN數的2倍報warning,否則檢查項通過

      24

      85408

      檢查殘留兩階段事務

      檢查pgxc_prepared_xacts參數,如果不存在二階段事物則檢查項通過,否則檢查項不通過

      25

      85409

      檢查pgxc_group表中需要重分布的個數

      檢查pgxc_group表中需要重分布的個數,檢查結果為0則通過,否則不通過

      26

      85410

      檢查集群是否被鎖

      檢查集群是否被鎖,若集群被鎖則不通過,否則檢查項通過

      27

      85412

      檢查數據庫連接

      檢查能否連接數據庫,如果連接成功則檢查項通過,否則檢查項不通過

      28

      85419

      檢查Pooler使用量

      檢查Pooler使用量,若超過33000則報NG,超過28000報Warning,否則檢查通過

      29

      85421

      檢查guc參數一致性

      檢查各CN/DN實例的guc參數是否一致,若全部一致則檢查通過,否則檢查不通過

      30

      85426

      檢查TD數據庫中orc表date類型列

      存在(TD模式數據庫下的orc表,且包含date類型的列)此用法則報NG,不存在則OK。

      31

      85428

      檢查hash index語法

      如果存在hash index則報NG,否則報OK

      32

      85429

      Node group編碼格式檢查

      存在非SQL_ASCII字符的node group名稱則報NG,不存在報OK

      33

      85430

      檢查創建視圖

      創建視圖時,如果查詢語句中含有子查詢,并且子查詢結果查詢解析&重寫之后存在別名重復,檢查不通過,否則檢查通過。

      34

      85431

      檢查重分布殘留的臨時表

      檢查數據庫中是否存在重分布殘留的臨時表,若不存在則檢查通過,否則檢查不通過

      35

      85435

      檢查是否開啟TD兼容特性

      檢查是否開啟與TD數據庫相應的兼容特征,如果未開啟,則檢查通過,否則檢查不通過

      36

      85437

      檢查單分區的記錄數

      如果有單分區記錄數偏少的表,報warning,否則檢查通過

      37

      85438

      檢查元數據一致性

      檢查系統表元數據是否一致,如果一致,則檢查通過,否則檢查不通過。

      38

      85439

      檢查pg_catalog

      檢查pg_catalog中是否有用戶自定義的數據庫對象,如果有檢查不通過,否則檢查通過。

      39

      85440

      檢查bcm追趕

      如果存在catchcup檢查不通過,否則檢查通過。

      40

      85441

      檢查nodegroup

      如果有installation, query, optimal的group_name,檢查不通過,否則檢查通過。

      41

      85448

      檢查proacl信息

      pg_proc系統表中proacl中存在純數字用戶名時報NG,其他情況下報OK。

      42

      85449

      檢查內存泄漏

      在各個cn和dn實例,

      other_used_memory/process_used_memory大于40%檢查報warning

      other_used_memory/process_used_memory大于70%檢查報NG

      dayamic_used_memory/max_dynamic_memory大于60%檢查報wanring

      dynamic_used_memory/max_dynamic_memory大于100%檢查報NG

      dynamic_used_shrctx/dynamic_used_memory大于50%檢查報warning

      43

      85450

      檢查cn和dn之間元數據一致性

      檢查系統表在cn和dn之間數據是否一致,一致則檢查通過,否則檢查不通過

      44

      85453

      檢查DDL是否能夠執行成功

      啟動事務創建、刪除schema和表,如果事務能夠提交,檢查通過,否則檢查不通過

      45

      85459

      檢查每個實例的系統表容量

      如果每一塊磁盤的剩余容量大于該磁盤上所有實例的系

      統表容量總和則檢查項通過,否則檢查項不通過

      46

      GaussDB(DWS)巡檢之日常巡檢介紹

      85461

      檢查用戶自定義函數返回值類型

      用戶自定義函數包含非法返回類型檢查不通過,否則通過

      47

      85500

      檢查網絡通暢

      檢查集群內所有節點的互通性,如果各節點所有IP均可ping通則檢查項通過,否則檢查項不通過

      48

      85600

      檢查DN磁盤空間使用率

      檢查磁盤DN目錄使用率,如果使用率低于90%則檢查項通過,否則檢查項不通過

      49

      85602

      檢查日志目錄磁盤使用率

      檢查磁盤日志目錄空間和索引使用率,如果使用率低于90%則檢查項通過,否則檢查項不通過

      50

      85603

      檢查臨時目錄磁盤使用率

      檢查磁盤臨時目錄磁盤和索引使用率,如果使用率低于90%則檢查項通過,否則檢查項不通過

      使用FusionCare巡檢:

      環境信息添加請參考《華為云Stack 8.0.3 數據倉庫服務(DWS)運維指南 01》指導手冊使用FusionCare巡檢章節進行添加。

      創建巡檢任務:

      前提條件

      (1)已登錄ManageOne運維面。

      (2)已完成添加環境信息和節點,參考添加環境信息和添加節點章節。

      1.在ManageOne運維面,單擊“首頁”頁面“常用鏈接”區域的“FusionCare(巡檢) > 待巡檢region名稱”,進入FusionCare系統。

      2.選擇“健康檢查 > 任務列表”,單擊頁面左上角的“新建”,進入健康檢查配置頁面。

      注1:日常巡檢任務策略可選立即執行、定時任務、周期任務

      注2:執行巡檢任務的目標客戶云。管理側:勾選"DWS”,巡檢項勾選“全選”。租戶側管理節點:勾選"DWS”,巡檢項勾選“全選”。

      單擊“立即創建”,完成巡檢任務創建。待巡檢完成后可界面查看本次巡檢任務中的故障詳情或者通過導出巡檢報告對巡檢結果進行分析。

      其他相關操作:

      (1)重新巡檢:在任務詳情頁面的右上角,單擊“重新巡檢”可重新巡檢本任務。

      (2)刪除:在任務詳情頁面的右上角,單擊“刪除”可刪除本巡檢任務(只可刪除完成后的任務,正在進行的任務不可刪除)。

      問題修復案例介紹:

      問題修復案例1:

      報告分析中檢查NTPD服務檢查結果不合格,可能影響擴容/升級/節點替換失敗,數據庫業務可能出現報錯,NTP(自動校時)服務可保證所有機器系統時間一致,從而保證數據庫全局性業務和數據同步功能正常,按照處理建議:

      從容器登錄dws的任意檢查失敗實例節點,sh connectTool.sh -n 集群實例名稱

      以集群名稱dwstest06312restore為例:

      sh connectTool.sh -n dwstest06312restore

      cd opsTool/;./connectTool.sh? -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone進入集群節點,對當前問題節點進行修復

      1.開啟ntpq服務(suse 11:service ntp start;Suse12、euleros、centos、redhat: service ntpd start),并配置校時服務器.

      重新巡檢或使用/usr/sbin/ntpq -p 檢查ntpd服務是否開啟.

      重新巡檢對報告進行分析

      問題修復案例2:

      檢查只讀模式未通過,分析當前集群只讀模式的原因,待原因定位清楚后,需要對當前不通過進行整改,否則只讀模式會導致數據庫無法寫入數據,影響變更和數據庫功能,依照處理建議:

      從容器登錄dws的任意檢查失敗實例節點,sh connectTool.sh -n 集群實例名稱

      以集群名稱wstest06312restore為例:

      sh connectTool.sh -n dwstest06312restore

      cd opsTool/;./connectTool.sh? -uecf -drms -hxx.xx.xx.xx -p7306 -n " dwstest06312restore -dws-cn-cn-1-1" -t Standalone進入集群節點

      ssh `hostname -i` 進入沙箱。

      1.先定位集群只讀原因之后,使用GUC工具關閉只讀模式:gs_guc set -Z coordinator -N all -I all -c default_transaction_read_only=off;gs_guc set -Z datanode -N all -I all -c default_transaction_read_only=off

      2.重啟集群:cm_ctl stop && cm_ctl start

      3.修復后重新巡檢對報告進行分析

      EI企業智能 Gauss AP 數據倉庫服務 GaussDB(DWS)

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:6.4 Linux查看文件內容(less命令)
      下一篇:Word 2007:表格標題行重復出現設置(word怎么轉pdf)
      相關文章
      无码久久精品国产亚洲Av影片| 亚洲精品和日本精品| 亚洲精品偷拍视频免费观看| 亚洲香蕉久久一区二区 | 亚洲国产精品自在线一区二区| 亚洲中文字幕无码永久在线 | 国产精品亚洲色婷婷99久久精品| jiz zz在亚洲| 亚洲熟妇自偷自拍另欧美| 亚洲免费闲人蜜桃| 亚洲人成影院77777| 亚洲三级视频在线| 亚洲一区在线视频| 久久精品国产亚洲αv忘忧草| 亚洲一区二区三区91| 亚洲精品中文字幕无乱码麻豆| 亚洲性无码av在线| 亚洲六月丁香婷婷综合| 亚洲熟妇AV一区二区三区浪潮| 亚洲变态另类一区二区三区| 亚洲国产精华液2020| yy6080久久亚洲精品| 亚洲精品高清在线| 亚洲日产韩国一二三四区| 亚洲国产日韩在线视频| 亚洲人成网站在线播放影院在线 | 亚洲av纯肉无码精品动漫| 国产成人亚洲综合在线| 亚洲人成人无码网www国产| 亚洲一区视频在线播放| 亚洲理论电影在线观看| 亚洲AV日韩AV天堂久久| 亚洲精品无码久久久久久久| 亚洲乱码在线视频| 亚洲国产精品无码久久久秋霞1| 日本系列1页亚洲系列| 精品国产人成亚洲区| 亚洲成A∨人片在线观看不卡| 亚洲综合精品香蕉久久网97| 亚洲人成777在线播放| 精品亚洲av无码一区二区柚蜜|