for openGauss)間的DRS同步任務創建。">DRS數據復制體驗第三關-MySQL與GaussDB(for openGauss)間的DRS同步任務創建。
846
2025-04-01
云監控告警提供對監控指標的告警功能,您可以對云服務的核心監控指標設置告警規則,當監控指標觸發您設置的告警條件時,云監控支持以郵箱、短信、HTTP、HTTPS等方式通知您,讓您在第一時間得知云服務發生異常,迅速處理故障,避免因資源問題造成業務損失。
云監控服務使用消息通知服務向用戶通知告警信息。首先,您需要在消息通知服務界面創建一個主題并為這個主題添加相關的訂閱者,然后在添加告警規則的時候,您需要開啟消息通知服務并選擇創建的主題,這樣在云服務發生異常時,云監控服務可以實時的將告警信息以廣播的方式通知這些訂閱者。
本節云小課以CPU使用率為例,使用云監控服務為彈性云服務器創建告警規則和通知,當彈性云服務器設置CPU使用率超過90%時觸發告警。
一:創建主題
登錄管理控制臺。
在管理控制臺左上角選擇區域和項目。
選擇“管理與監管” > “消息通知服務”。進入消息通知服務頁面。
在左側導航欄,選擇“主題管理” > “主題”。進入主題頁面。
在主題頁面,單擊“創建主題”,開始創建主題。此時將顯示“創建主題”對話框。
6. 在“主題名稱”框中,輸入主題名稱,在“顯示名”框中輸入相關描述,如下表所示。
參數
說明
主題名稱
創建的主題名稱,用戶可自定義名稱,規范如下:
l? 只能包含字母,數字,短橫線(-)和下劃線(_),且必須由大寫字母、小寫字母或數字開頭。
l? 名稱長度限制在1-255字符之間。
l? 主題名稱為主題的唯一標識,一旦創建后不能再修改主題名稱。
顯示名
顯示名,長度限制在192字節或64個中文字。
說明:
推送郵件消息時,若未設置主題的顯示名,發件人呈現為“username@example.com”,若已設置主題的顯示名,發件人則呈現為“顯示名
標簽
標簽由標簽“鍵”和標簽“值”組成,用于標識云資源,可對云資源進行分類和搜索。
l? 鍵的長度最大36字符,值的長度最大43 字符,不能包含“=”,“*”,“<”,“>”,“\”,“,”,“|”,“/”,且首尾字符不能為空格。
l? 每個主題最多可創建10個標簽。
7. 單擊“確定”,主題創建成功。新創建的主題將顯示在主題列表中。主題創建成功后,系統會自動生成主題URN,主題URN是主題的唯一資源標識,不可修改。新創建的主題將顯示在主題列表中。
8. 單擊主題名稱,可查看主題詳情和主題訂閱總數。
二:添加訂閱
登錄管理控制臺。
選擇“管理與監管” > “消息通知服務”。進入消息通知服務頁面。
在左側導航欄,選擇“主題管理” > “主題”。進入主題頁面。
在主題列表中,選擇您要向其添加訂閱者的主題,在右側“操作”欄單擊“添加訂閱”。此時將顯示“添加訂閱”對話框。
5. 在“協議”下拉框中選擇訂閱終端支持的協議,在“訂閱終端”輸入框中輸入對應的訂閱終端。批量添加訂閱終端時,每個終端地址占一行。添加終端詳情請參考消息通知服務用戶指南的“添加訂閱”。
6. 單擊“確定”。新增訂閱將顯示在頁面下方的訂閱列表中。
三:創建告警規則和通知
登錄管理控制臺。
單擊“服務列表 > 云監控服務”。
單擊頁面左側的“主機監控”,進入主機監控頁面。此時頁面上顯示了當前云平臺上的彈性云服務器列表。
單擊ECS主機所在欄右側的“更多”按鈕,選擇下拉出的“創建告警規則”。彈出創建告警規則的窗口。
依次按照如下所示配置參數。
選擇類型:選擇自定義創建。
監控指標:在下拉框中選擇“CPU使用率”。
告警策略:CPU使用率、平均值、監控周期5分鐘、連續三個周期、≥、90%。
告警級別:重要。
發送通知:是。
生效時間:00:00-23:59
主題通知:選擇已創建的主題。
觸發條件:依次勾選“出現告警”、“恢復正?!薄?/p>
配置完成后,點擊下一步。
6. 依次輸入告警規則名稱和描述后,點擊“創建”,完成告警規則的創建。
您還可以通過以下視頻進了解更詳細的操作步驟:
除了CPU使用率,您還可以參考以下告警策略的最佳實踐來繼續創建其他服務的告警規則和通知,配置告警從此變得so easy~
表 1 告警策略最佳實踐
服務
維度
指標-英文
指標-中文
告警策略最佳實踐
告警級別最佳實踐
彈性云服務器 ECS
/
云容器引擎 CCE-節點
彈性云服務器-云服務器
cpu_util
CPU使用率
連續3次 原始值 > 90%,帶外
重要
mem_util
內存使用率
連續3次 原始值 > 80%,帶內
重要
disk_util
磁盤使用率
連續3次 原始值 > 80%,帶內
重要
主機監控-云服務器
cpu_usage
AGT.CPU使用率
連續3個周期 原始值 > 90%
重要
mem_usedPercent
AGT.內存使用率
連續3個周期 原始值 > 80%
重要
disk_usedPercent
AGT.磁盤使用率
連續3個周期 原始值 > 80%
重要
disk_ioUtils
AGT.磁盤I/O使用率
連續3個周期 原始值 > 90%
重要
disk_fs_rwstate
AGT.文件系統讀寫狀態
連續2個周期 原始值 = 1
重要
disk_inodesUsedPercent
AGT.inode已使用占比
連續3個周期 原始值 > 90%
重要
裸金屬服務器 BMS
BMS操作系統監控指標
cpu_usage
AGT.CPU使用率
連續3次 原始值 > 80%, 帶內
重要
mem_usedPercent
AGT.內存使用率
連續3次 原始值 > 80%, 帶內
重要
disk_usedPercent
AGT.磁盤使用率
連續3次 原始值 > 80%, 帶內
重要
disk_ioUtils
AGT.磁盤I/O使用率
連續3次 原始值 > 90%
disk_fs_rwstate
AGT.文件系統讀寫狀態
連續2次 原始值 = 1
disk_inodesUsedPercent
AGT.inode已使用占比
連續3次 原始值 > 90%
云手機 CPH
云手機服務器
cpu_usage
CPU使用率
連續3次 原始值 > 80%
重要
mem_usedPercent
內存使用率
連續3次 原始值 > 80%
upstream_bandwidth_usage
出網帶寬使用率
連續3次 原始值 > 95%
重要
cph_sharebase_usedPercent
共享存儲空間使用率
連續5次? 原始值 > 95%
重要
云手機服務器-云手機
cph_cpu_usage
CPU使用率
連續5次? 原始值 > 90%
重要
cph_mem_usedPercent
內存使用率
連續5次? 原始值 > 90%
重要
cph_disk_usedPercent
云手機磁盤使用率
連續5次 原始值 > 90%
重要
云手機服務器-磁盤
disk_usage_read_await
平均讀操作耗時
連續3次 原始值 > 50ms
重要
disk_usage_write_await
平均寫操作耗時
連續3次 原始值 > 50ms
重要
云硬盤 EVS
磁盤
disk_device_write_await
平均寫操作耗時
連續5次 原始值 > 500ms
緊急
連續3次 原始值 > 500ms
重要
disk_device_read_await
平均讀操作耗時
連續5次 原始值 > 400ms
緊急
連續3次 原始值 > 400ms
重要
對象存儲服務
桶名稱
request_count_4xx
4xx錯誤次數
根據業務實際情況配置
緊急
request_count_5xx
5xx錯誤次數
連續2次,最大值 >N ; N=總請求數*(1-99.95%)并向上取整
緊急
total_request_latency
總請求平均時延
連續3次 原始值 > 閾值(見備注)
重要
upload_bytes
上傳流量
連續3次 原始值>1200GB
緊急
download_bytes
下載流量
連續3次 原始值>1200GB
緊急
用戶
total_request_latency
總請求平均時延
連續3次 原始值 > 閾值(見備注)
重要
upload_bytes
上傳流量
連續3次 原始值>1200GB
緊急
download_bytes
下載流量
連續3次 原始值>1200GB
緊急
云存儲網關 CSG
網關
cpu_util
CPU使用率
連續3次 原始值 > 95%
重要
mem_util
內存使用率
連續3次 原始值 > 90%
緊急
cache_util
緩存盤空間使用率
連續3次 原始值 > 95%
緊急
虛擬私有云 VPC
EIP/帶寬
upstream_bandwidth_usage
出網帶寬使用率
連續3次 原始值 > 95%
重要
虛擬專用網絡 VPN
VPN連接
connection_status
VPN連接狀態
連續2次 原始值 = 0
緊急
彈性負載均衡 ELB
ELB
m1_cps
并發連接數
連續3次 原始值 > xx(根據業務實際情況配置)
緊急
m4_ncps
新建連接數
連續3次 原始值 > xx(根據業務實際情況配置)
緊急
m9_abnormal_servers
異常主機數
連續1次 原始值 > 0
緊急
me_l7_http_4xx
七層協議返回碼(4XX)
連續3次 原始值 > xx (根據業務實際情況)
緊急
mf_l7_http_5xx
七層協議返回碼(5XX)
連續3次 原始值 > xx (根據業務實際情況)
緊急
-
me_l7_http_4xx
七層協議返回碼(4XX)
連續3次 原始值 > xx (根據業務實際情況)
緊急
mf_l7_http_5xx
七層協議返回碼(5XX)
連續3次 原始值 > xx (根據業務實際情況)
緊急
云專線
物理專線/歷史專線/虛擬接口
packet_loss_rate
丟包率
連續3次 原始值 =? 100%
緊急
連續3次 原始值 >? 10%
重要
network_incoming_bits_rate
網絡流入帶寬
連續3次 原始值 = 0
緊急
network_outgoing_bits_rate
網絡流出帶寬
連續3次 原始值 = 0
緊急
NAT網關 NAT
NAT網關
inbound_bandwidth
入方向帶寬
連續3次 原始值 >80%
重要
outbound_bandwidth
出方向帶寬
連續3次 原始值 >80%
重要
snat_connection_ratio
SNAT連接數使用率
連續3次 原始值 >80%
重要
云連接 CC
域間帶寬
network_incoming_bits_rate
網絡流入帶寬
連續5次 原始值 >=指定帶寬值
緊急
network_outgoing_bits_rate
網絡流出帶寬
連續5次 原始值 >=指定帶寬值
緊急
表 2 數據庫指標告警
維度
指標-英文
指標-中文
最佳實踐閾值
最佳實踐告警級別
mysql
rds001_cpu_util
CPU使用率
連續3次 原始值 >80%
重要
rds002_mem_util
內存使用率
連續3次 原始值 >90%
重要
rds039_disk_util
磁盤利用率
連續3次 原始值 >80%
重要
rds072_conn_usage
連接數使用率
連續3次 原始值 > 80%
重要
rds073_replication_delay
實時復制時延
連續3次 原始值 > 600s
重要
postgresql
rds001_cpu_util
CPU使用率
連續3次 原始值 > 80%
重要
rds002_mem_util
內存使用率
連續3次 原始值 > 90%
重要
rds039_disk_util
磁盤利用率
連續3次 原始值 > 80%
重要
rds046_replication_lag
復制時延
連續3次 原始值 > 600s
重要
rds083_conn_usage
連接數使用率
連續3次 原始值 > 80%
重要
SQL Server
rds001_cpu_util
CPU使用率
連續3次 原始值 > 80%
重要
rds039_disk_util
磁盤利用率
連續3次 原始值 > 80%
重要
rds002_mem_util
內存使用率
連續3次 原始值 > 90%
重要
rds054_db_connections_in_use
使用中的數據庫連接數
連續3次 原始值 > 80%
重要
DDS
mongo007_connections
當前活動連接數
連續3次? 原始值>80%
重要
mongo031_cpu_usage
CPU使用率
連續3次? 原始值>80%
重要
mongo035_disk_usage
磁盤利用率
連續3次? 原始值>80%
重要
mongo032_mem_usage
內存使用率
連續3次? 原始值>80%
重要
GaussDB
(for MySQL)
gaussdb_mysql001_cpu_util
CPU使用率
連續3次? 原始值>80%
重要
gaussdb_mysql002_mem_util
內存使用率
連續3次? 原始值>85%
重要
gaussdb_mysql011_innodb_buf_hit
緩沖池命中率
連續3次? 原始值>90%
重要
gaussdb_mysql072_conn_usage
連接數使用率
連續3次 原始值 > 80%
重要
gaussdb_mysql077_replication_delay
數據同步延遲
連續3次 原始值>1s
重要
gaussdb_mysql104_dfv_write_delay
存儲寫時延
連續3次 原始值>10ms
重要
gaussdb_mysql105_dfv_read_delay
存儲讀時延
連續3次 原始值>10ms
重要
數據庫代理
rds001_cpu_util
CPU使用率
連續3次 原始值 > 80%
重要
rds002_mem_util
內存使用率
連續3次 原始值 > 90%
重要
DRS
cpu_util
CPU使用率
連續3次 原始值 > 90%
重要
mem_util
內存使用率
連續3次 原始值 > 90%
重要
disk_util
磁盤利用率
連續3次 原始值 > 80%
重要
apply_latency
數據同步延遲
根據業務實際情況配置
重要
apply_current_state
同步狀態
連續1次 原始值 = 0
重要
apply_thread_workers
同步線程數量
連續3次 原始值 > 80
重要
DDM
cpu_usage
CPU使用率
連續3次 原始值 > 90%
重要
memory_usage
內存使用率
連續3次 原始值 > 90%
重要
GaussDB(for Cassandra)
cassandra001_cpu_usage
CPU使用率
連續3次? 原始值>80%
重要
cassandra002_mem_usage
內存使用率
連續3次? 原始值>80%
重要
nosql005_disk_usage
磁盤利用率
連續3次? 原始值>80%
重要
cassandra014_connections
活動連接數
連續3次? 原始值>最大連接數的80%
重要
GaussDB(for Influx)
gemini001_cpu_usage
CPU使用率
連續3次? 原始值>80%
重要
gemini002_mem_usage
內存使用率
連續3次? 原始值>80%
重要
nosql005_disk_usage
磁盤利用率
重要
GaussDB(for Redis)
gemini001_cpu_usage
CPU利用率
連續3次? 原始值>80%
重要
gemini002_mem_usage
內存利用率
連續3次? 原始值>80%
重要
nosql005_disk_usage
磁盤利用率
連續3次? 原始值>80%
重要
redis015_proxy_use_memory
proxy內存使用量
連續3次? 原始值>80%
重要
redis016_proxy_used_cpu
proxy CPU利用率
連續3次? 原始值>核數*80%
重要
GaussDB(for MongoDB)
nosql001_cpu_usage
CPU利用率
連續3次? 原始值>80%
重要
nosql002_mem_usage
內存利用率
連續3次? 原始值>80%
重要
nosql005_disk_usage
磁盤利用率
連續3次? 原始值>80%
重要
mongodb007_connections_usage
當前活動連接數百分比
連續3次? 原始值>80%
重要
GaussDB(for openGauss)
rds001_cpu_util
CPU使用率
連續3次? 原始值>80%
重要
rds002_mem_util
內存使用率
連續3次? 原始值>80%
重要
rds007_instance_disk_usage
實例數據磁盤已使用百分比
連續3次? 原始值>80%
重要
表 3?數據庫事件告警
服務名
事件英文名稱
事件中文名稱
最佳實踐告警級別
RDS
activeStandBySwitchFailed
主備切換異常
緊急
abnormalReplicationStatus
復制狀態異常
緊急
replicationStatusRecovered
復制狀態異常已恢復
緊急
faultyDBInstance
實例運行狀態異常
緊急
DBInstanceRecovered
實例運行狀態異常已恢復
緊急
DDS
DDSAbnormalReplicationStatus
復制狀態異常
緊急
DDSReplicationStatusRecovered
復制狀態異常已恢復
緊急
Insufficient storage space
數據盤空間不足
緊急
The data disk space is expanded and becomes writable
數據盤空間已擴容并恢復可寫
緊急
DDSFaultyDBInstance
實例運行狀態異常
緊急
DDSDBInstanceRecovered
實例運行狀態異常已恢復
緊急
DDSFaultyDBNode
節點運行狀態異常
緊急
DDSDBNodeRecovered
節點運行狀態異常已恢復
緊急
云數據庫 GaussDB(for MySQL)
TaurusInstanceRunningStatusAbnormal
實例運行狀態異常
緊急
TaurusInstanceRunningStatusRecovered
實例運行狀態異常已恢復
緊急
TaurusNodeRunningStatusAbnormal
節點運行狀態異常
緊急
TaurusNodeRunningStatusRecovered
節點運行狀態異常已恢復
緊急
云數據庫GaussDB(openGauss)
ProcessStatusAlarm
進程狀態告警
重要
ComponentStatusAlarm
組件狀態告警
重要
ClusterStatusAlarm
集群狀態告警
重要
HardwareResourceAlarm
硬件資源告警
重要
StateTransitionAlarm
狀態轉換告警
重要
OtherAbnormalAlarm
其他異常告警
重要
GaussDBV5FaultyDBInstance
實例運行狀態異常
緊急
GaussDBV5InstanceRecovered
實例運行狀態異常已恢復
緊急
GaussDBV5FaultyDBNode
節點運行狀態異常
緊急
GaussDBV5FaultyDBNodeRecovered
節點運行狀態異常已恢復
緊急
云數據庫 GaussDB NoSQL
(原GeminiDB)
Insufficient storage space
數據盤空間不足
緊急
The data disk space is expanded and becomes writable
數據盤空間已擴容并恢復可寫
緊急
NoSQLFaultyDBNode
節點運行狀態異常
緊急
NoSQLDBNodeRecovered
節點運行狀態異常恢復
緊急
NoSQLPrimaryStandbySwitched
實例主備切換
緊急
云小課 云監控服務
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。