【云小課】基礎服務第88課 還在怕資源狀態異常無法及時得知嗎?使用云監控服務創建告警規則和通知就行啦~

      網友投稿 846 2025-04-01

      云監控告警提供對監控指標的告警功能,您可以對云服務的核心監控指標設置告警規則,當監控指標觸發您設置的告警條件時,云監控支持以郵箱、短信、HTTP、HTTPS等方式通知您,讓您在第一時間得知云服務發生異常,迅速處理故障,避免因資源問題造成業務損失。

      云監控服務使用消息通知服務向用戶通知告警信息。首先,您需要在消息通知服務界面創建一個主題并為這個主題添加相關的訂閱者,然后在添加告警規則的時候,您需要開啟消息通知服務并選擇創建的主題,這樣在云服務發生異常時,云監控服務可以實時的將告警信息以廣播的方式通知這些訂閱者。

      本節云小課以CPU使用率為例,使用云監控服務為彈性云服務器創建告警規則和通知,當彈性云服務器設置CPU使用率超過90%時觸發告警。

      一:創建主題

      登錄管理控制臺。

      在管理控制臺左上角選擇區域和項目。

      選擇“管理與監管” > “消息通知服務”。進入消息通知服務頁面。

      在左側導航欄,選擇“主題管理” > “主題”。進入主題頁面。

      在主題頁面,單擊“創建主題”,開始創建主題。此時將顯示“創建主題”對話框。

      6. 在“主題名稱”框中,輸入主題名稱,在“顯示名”框中輸入相關描述,如下表所示。

      參數

      說明

      主題名稱

      創建的主題名稱,用戶可自定義名稱,規范如下:

      l? 只能包含字母,數字,短橫線(-)和下劃線(_),且必須由大寫字母、小寫字母或數字開頭。

      l? 名稱長度限制在1-255字符之間。

      l? 主題名稱為主題的唯一標識,一旦創建后不能再修改主題名稱。

      顯示名

      顯示名,長度限制在192字節或64個中文字。

      說明:

      推送郵件消息時,若未設置主題的顯示名,發件人呈現為“username@example.com”,若已設置主題的顯示名,發件人則呈現為“顯示名”。

      標簽

      標簽由標簽“鍵”和標簽“值”組成,用于標識云資源,可對云資源進行分類和搜索。

      l? 鍵的長度最大36字符,值的長度最大43 字符,不能包含“=”,“*”,“<”,“>”,“\”,“,”,“|”,“/”,且首尾字符不能為空格。

      l? 每個主題最多可創建10個標簽。

      7. 單擊“確定”,主題創建成功。新創建的主題將顯示在主題列表中。主題創建成功后,系統會自動生成主題URN,主題URN是主題的唯一資源標識,不可修改。新創建的主題將顯示在主題列表中。

      8. 單擊主題名稱,可查看主題詳情和主題訂閱總數。

      二:添加訂閱

      登錄管理控制臺。

      選擇“管理與監管” > “消息通知服務”。進入消息通知服務頁面。

      在左側導航欄,選擇“主題管理” > “主題”。進入主題頁面。

      在主題列表中,選擇您要向其添加訂閱者的主題,在右側“操作”欄單擊“添加訂閱”。此時將顯示“添加訂閱”對話框。

      5. 在“協議”下拉框中選擇訂閱終端支持的協議,在“訂閱終端”輸入框中輸入對應的訂閱終端。批量添加訂閱終端時,每個終端地址占一行。添加終端詳情請參考消息通知服務用戶指南的“添加訂閱”。

      6. 單擊“確定”。新增訂閱將顯示在頁面下方的訂閱列表中。

      三:創建告警規則和通知

      登錄管理控制臺。

      單擊“服務列表 > 云監控服務”。

      單擊頁面左側的“主機監控”,進入主機監控頁面。此時頁面上顯示了當前云平臺上的彈性云服務器列表。

      單擊ECS主機所在欄右側的“更多”按鈕,選擇下拉出的“創建告警規則”。彈出創建告警規則的窗口。

      依次按照如下所示配置參數。

      選擇類型:選擇自定義創建。

      監控指標:在下拉框中選擇“CPU使用率”。

      告警策略:CPU使用率、平均值、監控周期5分鐘、連續三個周期、≥、90%。

      告警級別:重要。

      發送通知:是。

      生效時間:00:00-23:59

      主題通知:選擇已創建的主題。

      觸發條件:依次勾選“出現告警”、“恢復正?!薄?/p>

      配置完成后,點擊下一步。

      6. 依次輸入告警規則名稱和描述后,點擊“創建”,完成告警規則的創建。

      您還可以通過以下視頻進了解更詳細的操作步驟:

      除了CPU使用率,您還可以參考以下告警策略的最佳實踐來繼續創建其他服務的告警規則和通知,配置告警從此變得so easy~

      表 1 告警策略最佳實踐

      服務

      維度

      指標-英文

      指標-中文

      告警策略最佳實踐

      告警級別最佳實踐

      彈性云服務器 ECS

      /

      云容器引擎 CCE-節點

      彈性云服務器-云服務器

      cpu_util

      CPU使用率

      連續3次 原始值 > 90%,帶外

      重要

      mem_util

      內存使用率

      連續3次 原始值 > 80%,帶內

      重要

      disk_util

      磁盤使用率

      連續3次 原始值 > 80%,帶內

      重要

      主機監控-云服務器

      cpu_usage

      AGT.CPU使用率

      連續3個周期 原始值 > 90%

      重要

      mem_usedPercent

      AGT.內存使用率

      連續3個周期 原始值 > 80%

      重要

      disk_usedPercent

      AGT.磁盤使用率

      連續3個周期 原始值 > 80%

      重要

      disk_ioUtils

      AGT.磁盤I/O使用率

      連續3個周期 原始值 > 90%

      重要

      disk_fs_rwstate

      AGT.文件系統讀寫狀態

      連續2個周期 原始值 = 1

      重要

      disk_inodesUsedPercent

      AGT.inode已使用占比

      連續3個周期 原始值 > 90%

      重要

      裸金屬服務器 BMS

      BMS操作系統監控指標

      cpu_usage

      AGT.CPU使用率

      連續3次 原始值 > 80%, 帶內

      重要

      mem_usedPercent

      AGT.內存使用率

      連續3次 原始值 > 80%, 帶內

      重要

      disk_usedPercent

      AGT.磁盤使用率

      連續3次 原始值 > 80%, 帶內

      重要

      disk_ioUtils

      AGT.磁盤I/O使用率

      連續3次 原始值 > 90%

      disk_fs_rwstate

      AGT.文件系統讀寫狀態

      連續2次 原始值 = 1

      disk_inodesUsedPercent

      AGT.inode已使用占比

      連續3次 原始值 > 90%

      云手機 CPH

      云手機服務器

      cpu_usage

      CPU使用率

      連續3次 原始值 > 80%

      重要

      mem_usedPercent

      內存使用率

      連續3次 原始值 > 80%

      upstream_bandwidth_usage

      出網帶寬使用率

      連續3次 原始值 > 95%

      重要

      cph_sharebase_usedPercent

      共享存儲空間使用率

      連續5次? 原始值 > 95%

      重要

      云手機服務器-云手機

      cph_cpu_usage

      CPU使用率

      連續5次? 原始值 > 90%

      重要

      cph_mem_usedPercent

      內存使用率

      連續5次? 原始值 > 90%

      重要

      cph_disk_usedPercent

      云手機磁盤使用率

      連續5次 原始值 > 90%

      重要

      云手機服務器-磁盤

      disk_usage_read_await

      平均讀操作耗時

      連續3次 原始值 > 50ms

      重要

      disk_usage_write_await

      平均寫操作耗時

      連續3次 原始值 > 50ms

      重要

      云硬盤 EVS

      磁盤

      disk_device_write_await

      平均寫操作耗時

      連續5次 原始值 > 500ms

      緊急

      連續3次 原始值 > 500ms

      重要

      disk_device_read_await

      平均讀操作耗時

      連續5次 原始值 > 400ms

      緊急

      連續3次 原始值 > 400ms

      重要

      對象存儲服務

      桶名稱

      request_count_4xx

      4xx錯誤次數

      根據業務實際情況配置

      緊急

      request_count_5xx

      5xx錯誤次數

      連續2次,最大值 >N ; N=總請求數*(1-99.95%)并向上取整

      緊急

      total_request_latency

      總請求平均時延

      連續3次 原始值 > 閾值(見備注)

      重要

      upload_bytes

      上傳流量

      連續3次 原始值>1200GB

      緊急

      download_bytes

      下載流量

      連續3次 原始值>1200GB

      緊急

      用戶

      total_request_latency

      總請求平均時延

      連續3次 原始值 > 閾值(見備注)

      重要

      upload_bytes

      上傳流量

      連續3次 原始值>1200GB

      緊急

      download_bytes

      下載流量

      連續3次 原始值>1200GB

      緊急

      云存儲網關 CSG

      網關

      cpu_util

      CPU使用率

      連續3次 原始值 > 95%

      重要

      mem_util

      內存使用率

      連續3次 原始值 > 90%

      緊急

      cache_util

      緩存盤空間使用率

      連續3次 原始值 > 95%

      緊急

      虛擬私有云 VPC

      EIP/帶寬

      upstream_bandwidth_usage

      出網帶寬使用率

      連續3次 原始值 > 95%

      重要

      虛擬專用網絡 VPN

      VPN連接

      connection_status

      VPN連接狀態

      連續2次 原始值 = 0

      緊急

      彈性負載均衡 ELB

      ELB

      m1_cps

      并發連接數

      連續3次 原始值 > xx(根據業務實際情況配置)

      緊急

      m4_ncps

      新建連接數

      連續3次 原始值 > xx(根據業務實際情況配置)

      緊急

      m9_abnormal_servers

      異常主機數

      連續1次 原始值 > 0

      緊急

      me_l7_http_4xx

      七層協議返回碼(4XX)

      連續3次 原始值 > xx (根據業務實際情況)

      緊急

      mf_l7_http_5xx

      七層協議返回碼(5XX)

      連續3次 原始值 > xx (根據業務實際情況)

      緊急

      -

      me_l7_http_4xx

      七層協議返回碼(4XX)

      連續3次 原始值 > xx (根據業務實際情況)

      緊急

      mf_l7_http_5xx

      七層協議返回碼(5XX)

      連續3次 原始值 > xx (根據業務實際情況)

      緊急

      云專線

      物理專線/歷史專線/虛擬接口

      packet_loss_rate

      丟包率

      連續3次 原始值 =? 100%

      緊急

      連續3次 原始值 >? 10%

      重要

      network_incoming_bits_rate

      網絡流入帶寬

      連續3次 原始值 = 0

      緊急

      network_outgoing_bits_rate

      網絡流出帶寬

      連續3次 原始值 = 0

      緊急

      NAT網關 NAT

      NAT網關

      inbound_bandwidth

      入方向帶寬

      連續3次 原始值 >80%

      重要

      outbound_bandwidth

      出方向帶寬

      連續3次 原始值 >80%

      重要

      snat_connection_ratio

      SNAT連接數使用率

      連續3次 原始值 >80%

      重要

      云連接 CC

      域間帶寬

      network_incoming_bits_rate

      網絡流入帶寬

      連續5次 原始值 >=指定帶寬值

      緊急

      network_outgoing_bits_rate

      網絡流出帶寬

      連續5次 原始值 >=指定帶寬值

      緊急

      表 2 數據庫指標告警

      維度

      指標-英文

      指標-中文

      最佳實踐閾值

      最佳實踐告警級別

      mysql

      rds001_cpu_util

      CPU使用率

      連續3次 原始值 >80%

      重要

      rds002_mem_util

      內存使用率

      連續3次 原始值 >90%

      重要

      rds039_disk_util

      磁盤利用率

      連續3次 原始值 >80%

      重要

      rds072_conn_usage

      連接數使用率

      連續3次 原始值 > 80%

      重要

      rds073_replication_delay

      實時復制時延

      連續3次 原始值 > 600s

      重要

      postgresql

      rds001_cpu_util

      CPU使用率

      連續3次 原始值 > 80%

      重要

      rds002_mem_util

      內存使用率

      連續3次 原始值 > 90%

      重要

      rds039_disk_util

      磁盤利用率

      連續3次 原始值 > 80%

      重要

      rds046_replication_lag

      復制時延

      連續3次 原始值 > 600s

      重要

      rds083_conn_usage

      連接數使用率

      連續3次 原始值 > 80%

      重要

      SQL Server

      rds001_cpu_util

      CPU使用率

      連續3次 原始值 > 80%

      重要

      rds039_disk_util

      磁盤利用率

      連續3次 原始值 > 80%

      重要

      rds002_mem_util

      內存使用率

      連續3次 原始值 > 90%

      重要

      rds054_db_connections_in_use

      使用中的數據庫連接數

      連續3次 原始值 > 80%

      重要

      DDS

      mongo007_connections

      當前活動連接數

      連續3次? 原始值>80%

      重要

      mongo031_cpu_usage

      CPU使用率

      連續3次? 原始值>80%

      重要

      mongo035_disk_usage

      磁盤利用率

      連續3次? 原始值>80%

      重要

      mongo032_mem_usage

      內存使用率

      連續3次? 原始值>80%

      重要

      GaussDB

      【云小課】基礎服務第88課 還在怕資源狀態異常無法及時得知嗎?使用云監控服務創建告警規則和通知就行啦~

      (for MySQL)

      gaussdb_mysql001_cpu_util

      CPU使用率

      連續3次? 原始值>80%

      重要

      gaussdb_mysql002_mem_util

      內存使用率

      連續3次? 原始值>85%

      重要

      gaussdb_mysql011_innodb_buf_hit

      緩沖池命中率

      連續3次? 原始值>90%

      重要

      gaussdb_mysql072_conn_usage

      連接數使用率

      連續3次 原始值 > 80%

      重要

      gaussdb_mysql077_replication_delay

      數據同步延遲

      連續3次 原始值>1s

      重要

      gaussdb_mysql104_dfv_write_delay

      存儲寫時延

      連續3次 原始值>10ms

      重要

      gaussdb_mysql105_dfv_read_delay

      存儲讀時延

      連續3次 原始值>10ms

      重要

      數據庫代理

      rds001_cpu_util

      CPU使用率

      連續3次 原始值 > 80%

      重要

      rds002_mem_util

      內存使用率

      連續3次 原始值 > 90%

      重要

      DRS

      cpu_util

      CPU使用率

      連續3次 原始值 > 90%

      重要

      mem_util

      內存使用率

      連續3次 原始值 > 90%

      重要

      disk_util

      磁盤利用率

      連續3次 原始值 > 80%

      重要

      apply_latency

      數據同步延遲

      根據業務實際情況配置

      重要

      apply_current_state

      同步狀態

      連續1次 原始值 = 0

      重要

      apply_thread_workers

      同步線程數量

      連續3次 原始值 > 80

      重要

      DDM

      cpu_usage

      CPU使用率

      連續3次 原始值 > 90%

      重要

      memory_usage

      內存使用率

      連續3次 原始值 > 90%

      重要

      GaussDB(for Cassandra)

      cassandra001_cpu_usage

      CPU使用率

      連續3次? 原始值>80%

      重要

      cassandra002_mem_usage

      內存使用率

      連續3次? 原始值>80%

      重要

      nosql005_disk_usage

      磁盤利用率

      連續3次? 原始值>80%

      重要

      cassandra014_connections

      活動連接數

      連續3次? 原始值>最大連接數的80%

      重要

      GaussDB(for Influx)

      gemini001_cpu_usage

      CPU使用率

      連續3次? 原始值>80%

      重要

      gemini002_mem_usage

      內存使用率

      連續3次? 原始值>80%

      重要

      nosql005_disk_usage

      磁盤利用率

      重要

      GaussDB(for Redis)

      gemini001_cpu_usage

      CPU利用率

      連續3次? 原始值>80%

      重要

      gemini002_mem_usage

      內存利用率

      連續3次? 原始值>80%

      重要

      nosql005_disk_usage

      磁盤利用率

      連續3次? 原始值>80%

      重要

      redis015_proxy_use_memory

      proxy內存使用量

      連續3次? 原始值>80%

      重要

      redis016_proxy_used_cpu

      proxy CPU利用率

      連續3次? 原始值>核數*80%

      重要

      GaussDB(for MongoDB)

      nosql001_cpu_usage

      CPU利用率

      連續3次? 原始值>80%

      重要

      nosql002_mem_usage

      內存利用率

      連續3次? 原始值>80%

      重要

      nosql005_disk_usage

      磁盤利用率

      連續3次? 原始值>80%

      重要

      mongodb007_connections_usage

      當前活動連接數百分比

      連續3次? 原始值>80%

      重要

      GaussDB(for openGauss)

      rds001_cpu_util

      CPU使用率

      連續3次? 原始值>80%

      重要

      rds002_mem_util

      內存使用率

      連續3次? 原始值>80%

      重要

      rds007_instance_disk_usage

      實例數據磁盤已使用百分比

      連續3次? 原始值>80%

      重要

      表 3?數據庫事件告警

      服務名

      事件英文名稱

      事件中文名稱

      最佳實踐告警級別

      RDS

      activeStandBySwitchFailed

      主備切換異常

      緊急

      abnormalReplicationStatus

      復制狀態異常

      緊急

      replicationStatusRecovered

      復制狀態異常已恢復

      緊急

      faultyDBInstance

      實例運行狀態異常

      緊急

      DBInstanceRecovered

      實例運行狀態異常已恢復

      緊急

      DDS

      DDSAbnormalReplicationStatus

      復制狀態異常

      緊急

      DDSReplicationStatusRecovered

      復制狀態異常已恢復

      緊急

      Insufficient storage space

      數據盤空間不足

      緊急

      The data disk space is expanded and becomes writable

      數據盤空間已擴容并恢復可寫

      緊急

      DDSFaultyDBInstance

      實例運行狀態異常

      緊急

      DDSDBInstanceRecovered

      實例運行狀態異常已恢復

      緊急

      DDSFaultyDBNode

      節點運行狀態異常

      緊急

      DDSDBNodeRecovered

      節點運行狀態異常已恢復

      緊急

      云數據庫 GaussDB(for MySQL)

      TaurusInstanceRunningStatusAbnormal

      實例運行狀態異常

      緊急

      TaurusInstanceRunningStatusRecovered

      實例運行狀態異常已恢復

      緊急

      TaurusNodeRunningStatusAbnormal

      節點運行狀態異常

      緊急

      TaurusNodeRunningStatusRecovered

      節點運行狀態異常已恢復

      緊急

      云數據庫GaussDB(openGauss)

      ProcessStatusAlarm

      進程狀態告警

      重要

      ComponentStatusAlarm

      組件狀態告警

      重要

      ClusterStatusAlarm

      集群狀態告警

      重要

      HardwareResourceAlarm

      硬件資源告警

      重要

      StateTransitionAlarm

      狀態轉換告警

      重要

      OtherAbnormalAlarm

      其他異常告警

      重要

      GaussDBV5FaultyDBInstance

      實例運行狀態異常

      緊急

      GaussDBV5InstanceRecovered

      實例運行狀態異常已恢復

      緊急

      GaussDBV5FaultyDBNode

      節點運行狀態異常

      緊急

      GaussDBV5FaultyDBNodeRecovered

      節點運行狀態異常已恢復

      緊急

      云數據庫 GaussDB NoSQL

      (原GeminiDB)

      Insufficient storage space

      數據盤空間不足

      緊急

      The data disk space is expanded and becomes writable

      數據盤空間已擴容并恢復可寫

      緊急

      NoSQLFaultyDBNode

      節點運行狀態異常

      緊急

      NoSQLDBNodeRecovered

      節點運行狀態異常恢復

      緊急

      NoSQLPrimaryStandbySwitched

      實例主備切換

      緊急

      云小課 云監控服務

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:探索高效工作流引擎:優化你的工作流設計
      下一篇:客戶服務管理系統客戶管理系統免費
      相關文章
      亚洲乱色熟女一区二区三区蜜臀| 亚洲综合av永久无码精品一区二区| 亚洲Aⅴ在线无码播放毛片一线天| 国产亚洲精品观看91在线| 337p日本欧洲亚洲大胆人人| 亚洲精品无码专区在线| 91亚洲导航深夜福利| 久久久久亚洲AV成人无码| 久久精品国产亚洲av麻| 亚洲av色福利天堂| 亚洲丝袜美腿视频| 亚洲精品在线免费观看视频| 亚洲美女人黄网成人女| 亚洲另类视频在线观看| 亚洲毛片基地4455ww| 中文字幕在线观看亚洲日韩| 亚洲无人区码一二三码区别图片| 日本亚洲免费无线码| 亚洲成在人线在线播放无码 | www亚洲精品少妇裸乳一区二区| 国产人成亚洲第一网站在线播放| 亚洲欧美日韩中文字幕在线一区| 亚洲人成网站999久久久综合| 亚洲成熟丰满熟妇高潮XXXXX | 亚洲欧洲国产精品你懂的| 亚洲高清视频在线播放| 亚洲一区二区三区精品视频| 一本色道久久综合亚洲精品蜜桃冫 | 亚洲天堂免费在线| 亚洲乱妇熟女爽到高潮的片 | 亚洲狠狠婷婷综合久久久久| 亚洲综合AV在线在线播放| 亚洲国产精品无码久久一区二区 | 国产精品亚洲色图| 中文字幕亚洲综合久久菠萝蜜| 亚洲国产精品无码专区影院| 777亚洲精品乱码久久久久久| 亚洲中文字幕久在线| 亚洲欧美日韩中文高清www777| 国产亚洲综合视频| 亚洲午夜国产精品无码|