大數據“復活”記
707
2025-03-31
Datanode磁盤壞塊告警
Datanode磁盤壞塊告警
告警匯總
告警編號
告警信息
告警類型
告警等級
告警規則
版本分析
測試驗證
告警匯總
CM告警匯總鏈接
告警編號
十進制編號:1078919239
十六進制編號:0x404F0047
告警信息
中文名稱:Datanode磁盤異常
英文名稱:AbnormalDiskError
代碼中告警英文名稱為ALM_AI_AbnormalDataInstDisk
英文附加信息:Data instance %s disk has problem, path: %s
示例:Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1
中文附加信息:數據實例%s磁盤異常, 路徑:%s
示例:數據實例dn_6001磁盤異常, 路徑:/home/1p1s1d/data/dnP1
告警類型
ALM_AT_Fault/ALM_AT_Resume
告警等級
DWS: IMPORTANT
告警規則
在DN上執行
select sum(error_count) from pg_catalog.pg_stat_bad_block;
獲取磁盤壞塊數目newBadBlock,并與上次檢查時的壞塊數目oldBadBlock作比較。
顯然壞塊數目不可能小于零。
case 0: newBadBlock == 0
消除告警
newBadBlock >= 0
case 1: newBadBlock == oldBadBlock
告警臨界區,維持當前告警類型不變
case 2.1: newBadBlock > oldBadBlock
壞塊增加,上報告警
case 2.2: newBadBlock < oldBadBlock
DN進程重啟或DN上執行了pg_stat_bad_block_clear(),而oldBadBlock尚未更新,上報告警
版本分析
C80版本
651版本
8.0版本
8.1.2版本(20210930)進行了告警功能重構,未改變告警規則。
測試驗證
case分類見《告警規則》小節
考慮oldBadBlock和oldBadBlock分別取0, 1, 2, 共9種情況,可精簡4種
cm_agent日志信息
2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck WARNING: Bad blocks changed from 341 to 342. 2021-08-09 10:39:59.148 tid=31528 Dn6001StatusCheck DEBUG1: Disk bad block alarm id 1078919239 type 0. 2021-08-09 10:39:59.583 tid=31541 Alarm LOG: Reporting alarm id 1078919239 with type 0 and info "Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1".
將告警打印至系統日志
Aug 9 10:34:19 ecs-env-3108 cm_agent: Syslog MPPDB||ecs-env-3108||127.0.0.1||||||||Database||MppDB||||SYSLOG||dn_6001||Alarm||AbnormalDiskError||Datanode磁盤異常||1||0||6||||||||||||||Data instance dn_6001 disk has problem, path: /home/1p1s1d/data/dnP1||數據實例dn_6001磁盤異常, 路徑:/home/1p1s1d/data/dnP1#012||||||||||||||||||||
EI企業智能 Gauss AP 數據倉庫服務 GaussDB(DWS)
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。