國美&華為,戰略合作簽約!
691
2025-03-31
AIOps原子能力劃分及介紹
AI使能基于包括日志和KPI數據在內的基礎數據層,在基礎算法庫的幫助下構建算子能力,覆蓋了故障發生、故障檢測、故障定位和故障修復在內的整個時期,在無故障階段進行故障預測,實現全流程覆蓋。
AIOps具備20+原子能力,覆蓋了預測、檢測、診斷、識別等多個運維環節,在故障預測階段提供了時空流量預測、硬盤故障檢測、電池故障預測和光模塊故障預測等;在故障檢測階段提供了KPI異常檢測、多KPI異常檢測、日志異常檢測、信令異常檢測,具備標注反饋優化能力;在故障識別階段,提供告警嚴重度分級、日志異常分類、KPI異常分類和識別類功能,用來減輕運維人員的工作量;在故障定位階段提供KPI關聯分析、異常傳播關系挖掘、告警根因診斷、多維屬性的根因定位和故障恢復推薦。
AIOps在IT場景實踐
采集Access日志數據,提取KPI,進行KPI異常、日志異常檢測,其中黃金指標和系統指標是重點檢測對象,將服務告警、KPI異常和日志異常等進行異常事件的一個聚合,進行故障定位,展示給相關的運維人員。主要監控關鍵接口的成功率和時延這兩者被稱為黃金指標,每個微服務都提供了該服務的關鍵接口作為主要監控目標。
靈活的流程編排,快速實現IT場景智能化運維,從KPI提取、數據對接到異常檢測,一直到事件的通知,提供了方便的流程操作。
KPI異常檢測能力是AI運維的基礎,也是其實現所需要的最關鍵的能力,如果知識基于單指標做檢測,準確率是不達標的,所以NAIE采用了多指標檢測,比如卡方分布、BRCF、CLSTM和iforest。同樣對于單指標也做了多型數據進行分析,來優化其準確率。
在異常發生后,做個關聯分析能夠輔助故障的定界定位。KPI異常檢測整體流程分為全量KPI指標,包括分組配置、KPI業務屬性等;屬性分析,在周期檢測上分為有周期和無周期,無周期的具有平穩、復雜變化的特點,除此還有波動性檢測、離散檢測等;在數據預處理階段,可以進行缺失補齊、指標平滑、異常去噪等,生成標簽給下一階段;進入異常檢測階段,使用多指標檢測;之后檢測異常顯著度,并對異常進行告警。
AIOps采用大規模服務集群,訓練態包括日志的模板提取,包括從原始數據、數據預處理到模板生成。運行態包含了故障發生、故障檢測和故障分析。利用日志模板對日志進行匹配,并通過日志模板增量學習來不斷優化日志模板,根據匹配的結果檢測異常,進行特征提取,展示其異常。在運行態需要實現提取模板、匹配模板(事件)、提取日期、提取時間、提取常量和變量、基于時間窗內的模板詞頻順序等判斷是否異常推薦出異常時間窗內的top根因日志。
告警分級排序,可以用來解決事件窗的選擇困難。它是從多個數據源進行特征提取,然后進行排序,為了得到更高的準確率,也加入了一些相關的關鍵詞。數據源包括KPI指標、系統日志、操作日志、運行日志和告警信息等等。根據相關數據源,進行KPI異常告警檢測和日志異常告警,將這些匯聚成事件,分析其告警特征,比如相關的文本特征和語義特征、時間特征比如頻率數量周期等。除了告警特征還有就是指標特征,比如指標類型、偏離度、異常個數。根據特征提取的結果利用XGBoost進行排序,它可以適應多個場景,進行多分類和排序操作均可;它的精度更高,它對損失函數進行二階泰勒展開,增加精度,而且可以近似大量損失函數;它的靈活性更強,不僅支持CART還支持線性分類器、自定義損失函數(要支持一階二階求導);支持并行運算,XGBoost中的’塊結構’能夠支持并行,提升效率。
我們可以基于調用鏈,實現故障實時的異常定界。可以通過3個步驟來進行實現,從歷史的Trace日志中獲取各接口間的調用關系比如對trace日志進行關系提取,對接口指標進行日常檢測獲取異常KPI組比如對接口KPI進行異常檢測,使用隨機游走算法獲取根因微服務。
多故障診斷方法相結合,實現單網元和跨網元場景根因定位,包括拓撲關系的根因定位和層次關系的根因定位。前者遵循的方法是先定界再定位,因果推理包括格蘭杰因果、PC因果和PCMIC,進行關聯分析包括異常時間關聯、皮爾森相關和互相關。而后者遵循的方法是Bottom-Up定位有效組合和Top-Down定位根因組合。
效果展示
下面是應用后的效果展示,提供了接口的成功率和平均時延,他們能夠實時更新,實時的檢測。還提供了接口失敗率的排行,可以有選擇的關注某些接口。還提供了接口的時延排行,可以清楚的看到哪些接口時延占比高。除此還有相關的一些檢測、接口的調用次數等等。
這張圖展示了KPI的告警信息、時延的異常走勢、成功率的異常走勢,可以根據其情況給予重點關注。
最后這張圖提供了故障根因描述、關聯告警、異常日志、調用鏈時序圖。基于調用鏈時序圖,我們可以直觀的看到接口調用情況,以及相關的異常問題。
網絡人工智能引擎iMaster NAIE是自動駕駛網絡的網絡AI設計和開發基礎平臺,支持對上傳到云端的各種網絡數據,持續進行AI訓練和知識提取生成AI模型和網絡知識成果,并可注入到網絡基礎設施、網絡管控單元和跨域智能運維單元中,讓網絡更好用,越用越智能。讓網絡AI開發更簡單、應用更高效,使能自動駕駛網絡!
視頻連接:https://live.huawei.com/hdc2021/meeting/cn/8137.html
AI 機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。