Docker 的優點
1059
2025-04-01
1、AIOps簡介
AIOps全稱為?Artificial Intelligence for IT Operations,即人工智能IT運維。AIOps平臺利用大數據,現代機器學習和其他高級分析技術,以主動、個性化和動態的見解直接或間接地增強IT操作(監視,自動化和服務臺)的功能。AIOps平臺可以自動在基礎架構和應用程序域之間收集數據,從而在日志、性能警報、故障單,以及其他項目中查找數據。在這個過程中,AI可以自動識別基礎設備、正在運行的應用程序和業務交易,并將其與上下游數據進行關聯。
那如何讓機器通過收集到的日志、性能警報、故障單中的數據識別警告,是實現AIOps的關鍵。
2、AIOps在電信網絡運維實踐
2.1、電信網絡系統運維現狀
目前電信網絡系統運維挑戰:
設備及軟件種類多,安裝部署環境復雜;
網絡拓撲結構復雜,故障傳播鏈長;
牽涉的組織、部門多,閉環難度大;
事故影響大,責任重;
電信網絡系統運維目標:
故障定界、定位:快速定位故障,從故障中恢復;
KPI異常檢測:及早發現、預報事故苗頭;
電信網絡運維有利條件:
日志齊全
命令日志、告警日志、KPI統計數據
可用于構造現網拓撲圖,可挖掘故障,告警間因果關系
文檔豐富
產品文檔、運維文檔、社區經驗共享
可挖掘故障、告警間因果關系
2.2、故障告警根因定界
現狀:
業務專家手工建立因果關系:因果關系是建立在schema的,不是實體上的;
專家人工分析癥狀傳播圖、猜測故障根因、并檢查確認、故障恢復;
期望:
自動發現癥狀間因果關系;
推薦可能根因故障;
長期目標:自動檢查確認、故障恢復;
2.3、KPI異常檢測
2.3.1、固定閾值與時間序列法
網絡運維KPI異常檢測的痛點
指標數量多,人工難以全面控制;
場景變化多,難以自動更新適配;
固定閾值存在告警不準,或者告警遺漏問題;
基于時間序列的異常檢測方法的問題
將時間序列當做上下文的波動曲線;
人工標準的標準無法定義;
給定上下文,業務目標的條件下談異常才有意義;
2.3.2、利用上下文信息
原理:
目標KPI:運維團隊的考核指標,異常條件人工定義;
輔助KPI:根據對目標KPI的直接或間接影響判斷是否異常;
流程:
訓練時,自頂向下為KPI關系圖上的節點建立異常分類器,上層節點為下層節點傳遞監督信息;
檢測異常時,自底向上檢測,底層的異常可能在上層過濾;
KPI數量龐大,可以人工為一些代表性節點建立分類器,其它節點自動生成分類器。
2.4、文本規則知識抽取
針對在電信網絡系統運維中存在的問題,可通過文本規則知識抽取的方法來解決。
2.4.1、會話語義解析
技術特點:
Seq2Tree Deq2Pointer-Generator等模型;
輸出有預定義的Schema;
局限性:
公開數據集與技術文檔差別大
2.4.2、話語表示結構解析
技術特點:
Seq2Seq等模型;
輸出包含時態、模態信息;
局限性:
公開數據集與技術文檔差別大;
標注成本高;
2.4.3、語義依存分析
技術特點:
Seq2Tree、transition-based等方法;
局限性:
對長語句、復雜語句效果不佳;
專業術語對效果影響較大;
2.4.4、采用分治法做語義理解
復合名分割與定義分析:獲取癥狀、條件之間的關系;
短語、實體抽取與語義分析:獲取實體位置、約束;
簡單名語義分析:獲取癥狀類型
2.4.5、復合句分析
挑戰:
同一語句包含多種句法關系
十多種常見句法關系
隱匿句法關系(沒有連接詞)
復雜的語句結構
解決辦法:語句分割
技術方案:
BERT-CRF
SegBot
3、華為AIOps介紹
華為AIOps服務作為網絡AI引擎NAIE的核心能力,提供一系列AIOps原子能力以及組合編排能力,可以靈活適配各類ICT運維業務場景,助力高效快速地實現智能化運維,提升運維工作效率。華為AIOps服務具有3大核心價值。
1)集成電信知識經驗和最佳AI算法實踐的原子能力,覆蓋主流網絡運維業務場景
華為NAIE AIOps服務圍繞故障預測、故障檢測、根因診斷等場景,提供超過20種AI原子能力,覆蓋網絡運維業務大部分流程和運維業務需求,如流量預測、KPI異常檢測、日志異常檢測、CHR異常檢測、異常關聯分析、事件聚合、根因定位等。這些原子能力是基于華為電信網絡知識的積累、高質量的數據樣本,結合最佳算法調測實現,在擁有模型高精度的同時,也有較好的的模型泛化能力。以根因定位為例,AI傳播圖積累多個領域故障傳播規則,覆蓋無線、數通、傳接等場景,只需選定場景,告警自動通過AI傳播關系推理出故障根因。
2)編排框架零編碼快速實現智能運維應用,大屏效果實時可視
NAIE提供的編排框架操作簡單靈活,使用者可選擇業務場景所需的AIOps原子能力,通過可視化方式完成流程串接,只需從組件庫中拖拽數據及原子能力進行組合,即可完成應用場景端到端的圖形化編排。并且,支持進行業務泛化的參數配置,包括數據接入方式、模型參數、內置電信領域泛化參數,真正支撐使用者零編碼、低門檻進行作業,高效構建AI應用。同時,NAIE AIOps的編排框架還提供數據可視化服務,支持輕松按需搭建可視化大屏,其包括豐富的2D/3D可視化組件,如圖表控件、地圖控件、交互控件以及媒體控件等,拖拽式自由布局,快速實現DIY可視化大屏,一鍵預覽,業務結果快速呈現,實現運維應用效果的實時可視。
3)針對典型場景,提供開箱即用的APP
NAIE AIOps服務目前針對運維最常見的業務場景,提供數十個開箱即用的APP,覆蓋運營商網絡、園區網絡、DC網絡、IT應用四大領域。運營商領域,提供跨域故障識別分析、核心網日志異常監測、基站流量預測、無線性能分析等應用;針對園區網絡,提供園區5G設備故障監測、園區網絡智能巡檢、光模塊故障預測等;在DC領域,提供硬盤故障預測、DC PUE優化、供電鋰電故障預測、DC安全智能巡檢等;另外在IT應用領域,提供IT應用健康監控、云服務日志異常監測等智能運維應用。
基于華為NAIE AIOps的智能化應用已經在全球110+局點實現部署和運用,效果明顯。其中,智能檢測系統能夠提前識別網絡故障,助力運營商及早發現問題和進行相關恢復處理,降低業務的影響。數據中心的智能節能方案,通過AIOps服務可以快速完成模型的泛化和方案的部署,在多個數據中心運用中,帶來5%~10%的PUE降低。
華為AIOps服務,沉淀了10+開箱即用的智能APP,覆蓋運營商網絡、園區網絡、數據中心網絡和IT應用等領域,可加速網絡AI應用落地,預集成豐富的AI原子能力,覆蓋故障預測、檢測、診斷、識別等環節。支持用戶零編碼開發AI應用,提升運維效率。
4、華為AIOps主要功能
華為AIOps服務具備如下功能:
4.1、數據采集治理
AIOps預置數據采集治理能力,提供一站式的數據采集、解析、治理等基礎工具鏈,以及智能輔助數據標注能力
4.2、應用流程設計
提供零編碼流程開發能力,針對不同場景,靈活自定義應用流程。
4.3、應用大屏設計
拖拽式自由布局,快速實現DIY可視化,輕松搭建大屏,一鍵預覽。
4.4、應用貨架
沉淀典型應用資產,幫助用戶輕松部署、運行AI應用。
4.5、原子能力擴展
支持用戶導入自定義的AI原子能力,高效擴展應用。
5、華為AIOps亮點優勢
5.1、數據易對接
支持SFTP、Kafka、Rest等通用采集協議,支持華為30類網元、100多種主流設備的自動對接,滿足ICT網絡領域端管云的數據采集需求。
5.2、豐富的AI原子能力
20+原子能力覆蓋預測、檢測、診斷、識別等網絡運維場景,通過100+現網局點驗證,異常識別與故障診斷準確率達90%,并支持用戶自定義擴展。
5.3、開箱即用的AI應用
沉淀數十個經過專家調優與局點驗證的開箱即用APP,用戶只需配置數據源,即可啟動APP運行。免去了應用流程、可視化大屏的設計耗時,將AI應用的開發部署過程縮短到分鐘級。
5.4、零編碼場景化流程編排
基于豐富的原子能力,簡單拖拽式設計APP流程,系統自動完成節點間的數據銜接,并根據原子能力關系,自動推薦下個可能需要的節點,避免了用戶從組件庫中反復篩選驗證的過程,降低AI應用開發門檻。
5.5、可視化大屏按需定制
提供80+的2D/3D可視化組件,輕松DIY出包含趨勢、報表、網絡關系等元素的可視化大屏,通過自定義SQL靈活檢索APP數據。同一APP下的多個大屏,可通過環境變量相互傳參跳轉,將統計呈現與鉆取分析的多個頁面融為一體,有效地提升運維效率。
6、華為AIOps應用場景
6.1、運營商網絡智能運維
在網絡日常監控中,實現KPI的智能異常檢測,并進行異常隱患的預測;對KPI異常、設備告警等多維數據融合分析,智能識別根因網元和故障,推薦故障恢復措施。KPI異常檢測準確率85%,根因識別準確率90%,有效提升運維效率,保障用戶體驗。
6.2、數字園區智能運維
在園區、智慧工廠的5G、WIFI網絡中,采集網絡傳輸、終端設備的性能、告警數據,實現網絡性能智能監控與終端體驗分析,故障提前預測,分鐘級完成故障處理,保障生產設備實時在線,促進產線健康高效生產。
6.3、數據中心智能巡檢
數據中心的網絡規模大、設備布置分散,多廠商新老設備并存,較多設備無法聯網支持在線監控,依賴運維人員定期巡視,效率低下,問題發現不及時。借助設備區域的監控圖像,實施火情、關鍵設備開關與指示燈狀態異常檢測等,實現遠程智能巡檢。
6.4、IT應用健康監控
IT應用監控存在指標多,檢測不準確,故障定界分析耗時等問題,通過采集IT應用日志,集成日志異常檢測、KPI異常檢測和根因定界等AI原子能力,實現接口時延、成功率等指標的實時異常監控,結合服務告警、調用鏈等信息,5分鐘診斷故障根因,提升運維效率。
7、常見問題
7.1、用戶的數據怎么對接到AIOps服務?
可以選擇如下對接渠道:
OBS
數據目錄
本地上傳
更多渠道將陸續上線。
7.2、用戶如何查看輸出結果?
用戶可以通過DLV大屏能力,豐富的圖形化來呈現結果。
用戶可以通過自助運維工作臺,靈活的查詢數據結果。
7.3、用戶如何編排流程?
AIOps提供零編碼流程編排能力,針對不同場景,可視化拖拽式編排:
場景化靈活組合
零編碼,降低開發難度
拖拽式原子流程編排
預置20+原子能力
集成50+通信領域AI算子&項目模板
封裝100+通信領域AI SDK
集成RPA實現數據采集和結果推送
擴展性強
快速集成第三方原子能力
支持自配置數據類型
支持自定義處理腳本/視圖 /記錄集等
7.4、用戶如何制作一個原子能力包?
AIOps提供上傳自定義原子能力包的能力。
首先我們需要了解如何制作一個原子能力zip包,zip包內容和目錄結構必須遵循如圖1所示,否則會上傳失敗。
圖1?zip包內容和目錄結構
表1?原子能力zip包目錄結構
目錄/文件
詳細說明
來源
SampleDatas
存放初始的樣例數據,供用戶體驗上傳,可以為空。
可單擊“應用貨架”,單擊“原子能力列表”頁簽,在“原子能力列表”頁面中單擊“新建”,在彈出的“組件導入”頁面,選擇“配置文件”參數對應的“配置文件樣例下載”獲取。
Others
預留目錄,可以為空。
-
Model
存放通過模型訓練生成的模型包。
通過模型訓練生成模型包的具體步驟請參考快速入門。
metadata.json
原子能力配置文件介紹如下文所示。
可單擊“應用貨架”,單擊“原子能力列表”頁簽,在“原子能力列表”頁面中單擊“新建”,在彈出的“組件導入”頁面,選擇“配置文件”參數對應的“配置文件樣例下載”獲取樣例模板metadata.json。
原子能力配置文件介紹
文件介紹
原子能力描述文件,是AIOps服務提供的配置文件。原子能力按要求配置注冊后,AIOps服務就能準確識別各原子能力(包含原子能力基本信息,原子能力支持的數據結構,原子能力的標注信息,以及AIOps和原子能力之前的通信方式)。
7.5、APP啟動無數據流
APP應用啟動時數據對接連接后卻無數據輸出。原因是“數據對接”內未選擇數據源。
1、創建APP應用的時候未勾選數據源。
2、雙擊“數據對接”,勾選數據源,單擊“確定”。
3、如果數據源是灰色不給選擇,請查看原子能力的輸入數據類型和數據源的輸出數據類型是否相同。
4、選擇正確的輸入輸出類型后,才會產生數據流。
7.6、模板導入失敗
導入模板失敗的原因可能是模板名稱和版本已經存在,或者模板的內部json結構與樣例文件的結構相同。
當上傳名稱已經存在的模板時,模板導入失敗并提示模板名重復。
2. 查看模板內的“templateName”字段名是否已存在與模板列表中
8、成功案例
華為南方工廠
華為南方工廠的5G數字化園區,網絡設備類型多,跨核心網、無線、傳輸多領域。出現故障時,要求分鐘級響應,而人工處理時間達小時級。AIOps為華為南方工廠提供的網絡體驗與故障分析應用,實時采集工廠內跨領域設備的性能與告警數據,通過KPI異常檢測、故障根因識別的AI能力,以及自定義的可視化大屏,實現設備故障分鐘級精確識別與診斷,故障根因主動通知到運維人員,將故障處理周期縮短50%以上,顯著提升了網絡運維效率。
9、總結
AIOps平臺是IT運營的下一代解決方案,IT平臺的復雜度和集成度將繼續以指數級增長,而人的能力相對保持不變,從而變成制約業務發展的內在原因,而AIOps可以真正提升運維效率,提升洞察力,讓運維人員關注真正需要關注的事情-用戶滿意度。
10、其它
本文整理自華為云社區【內容共創】活動第13期。
查看活動詳情:https://bbs.huaweicloud.com/blogs/330939
相關任務詳情:任務10:如何讓機器聽懂我的“警告”?網絡AIOps應用實踐
AI
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。