國(guó)美&華為,戰(zhàn)略合作簽約!
849
2025-04-01
一 背景
在數(shù)字化轉(zhuǎn)型的時(shí)代,無(wú)論是電信運(yùn)維或是IT運(yùn)維,都面臨這非常大的挑戰(zhàn),傳統(tǒng)人工、工具化運(yùn)維已經(jīng)不能滿足網(wǎng)絡(luò)新需求,智能化轉(zhuǎn)型的需求迫在眉睫。
如今,AIOps已經(jīng)成為智能化運(yùn)維轉(zhuǎn)型的核心手段,通過(guò)構(gòu)建電信領(lǐng)域AIOps平臺(tái)能力,快速實(shí)現(xiàn)智能運(yùn)維升級(jí),那么在這種背景下,運(yùn)維人員會(huì)在新的浪潮中失業(yè)嗎?
二 需求挑戰(zhàn)
1.1 CT電信領(lǐng)域 新技術(shù)、新挑戰(zhàn)、呼喚高度智能典型網(wǎng)絡(luò)
以5G為代表的新技術(shù)為人民的生活帶了了諸多便利,例如:大鏈接,低時(shí)延。
但是也帶了了復(fù)雜性,例如:
新老技術(shù)的共同存在,網(wǎng)絡(luò)的復(fù)雜度非常高,四世同堂的技術(shù)并存;
新需求:企業(yè)融入生產(chǎn),對(duì)網(wǎng)絡(luò)要求非常高,網(wǎng)絡(luò)可靠性要求高;
成本壓力:運(yùn)維成本高,能耗高。
1.2 IT領(lǐng)域,數(shù)字化轉(zhuǎn)型時(shí)代,傳統(tǒng)運(yùn)維面臨挑戰(zhàn)
數(shù)字化轉(zhuǎn)型時(shí)代,傳統(tǒng)運(yùn)維也面臨巨大挑戰(zhàn),IT領(lǐng)域無(wú)論從硬件和軟件規(guī)模,微服務(wù)領(lǐng)域都非常復(fù)雜,利用數(shù)據(jù)演進(jìn)過(guò)程:
人工查詢。
基于規(guī)則的運(yùn)維。
大數(shù)據(jù)如何進(jìn)行處理,成為挑戰(zhàn)。
1.3 AI是提升電信網(wǎng)絡(luò)自動(dòng)化和智能化的關(guān)鍵技術(shù)
應(yīng)對(duì)于大數(shù)據(jù)和挑戰(zhàn),如果利用AI提升電信網(wǎng)絡(luò)自動(dòng)化和智能化進(jìn)程。
通過(guò)AI降低運(yùn)維成本:
基站節(jié)能:在空閑的時(shí)段下,載波關(guān)閉,LSTM神經(jīng)網(wǎng)絡(luò)降低能耗。
核心網(wǎng)KPI異常檢測(cè):故障TOP原因?yàn)镈NS解析失敗,運(yùn)營(yíng)商的提前五個(gè)鐘頭發(fā)生故障提前報(bào)告,避免影響高峰用戶體驗(yàn)。
故障識(shí)別及根因定位:無(wú)線基站網(wǎng),重復(fù)派單問(wèn)題,引發(fā)派單告警風(fēng)暴,通過(guò)根因定位,使得故障收斂,快速定位問(wèn)題并解決。
1.4 AI應(yīng)用的阻礙
AI很好,那么運(yùn)維人員會(huì)失業(yè)嗎?AI應(yīng)用的主要障礙:
1.4.1 模型
企業(yè)成熟度:人員技能,數(shù)據(jù)范圍或質(zhì)量,治理或各種顧慮;
恐懼未知:理解增益和用途,安全或隱私顧慮,衡量?jī)r(jià)值;
尋找起點(diǎn):尋找用例,制定策略;
廠商策略:集成復(fù)雜度。
1.4.2 華為經(jīng)驗(yàn)
AI應(yīng)用開發(fā)門檻高
缺乏AI算法開發(fā)人員;
業(yè)務(wù)于算法結(jié)合難(算法和業(yè)務(wù)結(jié)合),運(yùn)維人員排斥。
業(yè)務(wù)人員學(xué)習(xí)算法。
高質(zhì)量數(shù)據(jù)收集難
工程化開發(fā)要求高
AI應(yīng)用開放周期長(zhǎng)
單一AI技術(shù)無(wú)法滿足企業(yè)訴求,效果難體現(xiàn),流程編排難度大。
運(yùn)維人員需要人工編碼開放不同場(chǎng)景的AI應(yīng)用,耗時(shí)耗力。
三 華為AIOps服務(wù)
目的:降低AI應(yīng)用開放門檻,
底層:數(shù)據(jù)管理,采集,拓?fù)涔芾?/p>
原子能力:預(yù)測(cè),檢測(cè),診斷,識(shí)別,每種原子能力都是經(jīng)過(guò)過(guò)實(shí)際檢驗(yàn)
框架編排能力:框架,流程
開箱即用APP:行業(yè)AI應(yīng)用。
華為AIOps服務(wù)的三大能力價(jià)值可以總結(jié)為:
一是,支持通用數(shù)據(jù)源。支持Kafka、數(shù)據(jù)庫(kù)、文件系統(tǒng)、Restful 等運(yùn)維系統(tǒng)的主流數(shù)據(jù)對(duì)接方式,讓數(shù)據(jù)上的來(lái)。采用數(shù)據(jù)治理SDK方式,將異構(gòu)數(shù)據(jù)(時(shí)序數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)等)治理成AIOps 原子能力標(biāo)準(zhǔn)輸入數(shù)據(jù),有效解決數(shù)據(jù)適配問(wèn)題。
二是,有豐富的AIOps 原子能力。運(yùn)維領(lǐng)域AI模型和算法具有開發(fā)門檻高,開發(fā)周期長(zhǎng)的特點(diǎn),重復(fù)開發(fā)公共能力,造成資源浪費(fèi)。華為通過(guò)沉淀核心AI資產(chǎn),采用自主研發(fā)+生態(tài)合作相結(jié)合的方式,提供數(shù)字化基礎(chǔ)組件,提高AI應(yīng)用開發(fā)效率,降低AI開發(fā)門檻。通過(guò)行業(yè)知識(shí)與AI算法融合,優(yōu)化和自研AI算法,內(nèi)置電信領(lǐng)域業(yè)務(wù)模型參數(shù),支持設(shè)計(jì)態(tài)的泛化,運(yùn)行態(tài)的調(diào)優(yōu)。此外,華為AIOps服務(wù)?原子能力模型統(tǒng)一標(biāo)準(zhǔn),使得原子能力可串接。
三是,場(chǎng)景組合編排與DevOps。通過(guò)編排能力,不需要寫代碼,只需可視化的拖拽式編排,降低AI快速開發(fā)應(yīng)用的門檻。
2.1 多場(chǎng)景數(shù)據(jù)采集治理,提升數(shù)據(jù)開發(fā)效率
設(shè)備不同,數(shù)據(jù)格式,接口不同,
豐富的數(shù)據(jù)采集能力:
高效數(shù)據(jù)治理能力:
智能輔助數(shù)據(jù)標(biāo)注能力:
2.2 20+原子能力覆蓋預(yù)測(cè)、檢測(cè)、診斷、識(shí)別等網(wǎng)絡(luò)運(yùn)維場(chǎng)景
四大場(chǎng)景:
目標(biāo):不僅僅是算法的實(shí)現(xiàn),而是通過(guò)實(shí)際經(jīng)驗(yàn)的優(yōu)選。華為專家的經(jīng)驗(yàn)融入其中,并支出開放能力。
2.3 零編碼場(chǎng)景化流程編排,支持合作伙伴低門檻快速開放AI應(yīng)用
AIOps提供零編碼流程編排能力,針對(duì)不同場(chǎng)景,可視化拖拽式編排,大幅提升運(yùn)維人員AI應(yīng)用開發(fā)效率。
2.4 前臺(tái)靈活編排,大屏按需定制,運(yùn)維效果實(shí)時(shí)可視
輕松搭建可視化大屏,業(yè)務(wù)結(jié)果快速呈現(xiàn),滿足項(xiàng)目復(fù)雜需求,有效提升運(yùn)維管理效率。
2.5 RPA助理AIOps對(duì)接現(xiàn)有運(yùn)維系統(tǒng)
故障恢復(fù),RPA(機(jī)器人流程自動(dòng)化)完成跨系統(tǒng)數(shù)據(jù)對(duì)接,數(shù)據(jù)搬運(yùn),工單發(fā)放,消息通知等,提升企業(yè)運(yùn)維效率。
工單系統(tǒng)對(duì)接
自恢復(fù)
問(wèn)題單
2.6 10+開箱即用APP,支持快速部署
KPI異常檢測(cè)APP,5步實(shí)現(xiàn)告警預(yù)警,覆蓋全場(chǎng)景,靈活部署,開發(fā)生態(tài)。
四 AIOps SAAS監(jiān)控監(jiān)控
4.1 微服務(wù)架構(gòu)下的故障
問(wèn)題:
故障特征
微服務(wù)通過(guò)調(diào)用關(guān)系和共享基礎(chǔ)設(shè)施相互影響,常常多個(gè)微服務(wù)同時(shí)故障。
故障發(fā)出異常實(shí)際,數(shù)據(jù)量大,信息少。
故障處理思路
多模態(tài)數(shù)據(jù)異常檢測(cè),發(fā)現(xiàn)異常事件
疆同一故障觸發(fā)異常事件聚合在一起
如有多個(gè)異常微服務(wù),進(jìn)行故障定界,找出根因微服務(wù)
對(duì)根因微服務(wù),進(jìn)行故障定位,找出故障根因
對(duì)接故障處理流程,進(jìn)行故障恢復(fù)
解決
故障根因
微服務(wù)外部
調(diào)用鏈傳播
微服務(wù)內(nèi)部
軟件bug
配置問(wèn)題
其他
4.2 典型場(chǎng)景:SaaS從故障發(fā)現(xiàn)道根因定位
對(duì)象:云服務(wù)
指標(biāo):接口
數(shù)據(jù):多種數(shù)據(jù),多模態(tài)數(shù)據(jù)
流程:采集數(shù)據(jù)->對(duì)接->提取->異常檢測(cè)->匯聚識(shí)別->根因定界->故障診斷
4.3 高精度,融合多種KPI智能檢測(cè)算法,可致辭10萬(wàn)+同時(shí)檢測(cè)
KPI異常檢測(cè),整體流程如下:
全量KPI指標(biāo)->屬性分析->數(shù)據(jù)預(yù)處理->異常檢測(cè)->異常顯著度->異常告警->異常指標(biāo)關(guān)
傳統(tǒng)人工設(shè)置指標(biāo)值,多個(gè)指標(biāo)無(wú)法聯(lián)合
4.4 大規(guī)模服務(wù)及其,海量日志實(shí)時(shí)檢測(cè),性能達(dá)40萬(wàn)條/秒
故障發(fā)生:
提取模版,匹配模版(事件),提取日期,事件,變量和常量。
基于實(shí)際窗內(nèi)的模版判斷。
推薦出異常時(shí)間窗內(nèi)的top根因日志。
故障發(fā)現(xiàn):日志詞頻,日志檢測(cè)。
故障分析:異常特征,關(guān)鍵日志推薦,日志展示,反饋。
4.5 事件聚合
根據(jù)事件發(fā)生時(shí)間聚合,支持事件亂序到達(dá)
時(shí)間窗大小可配置
先通知,后追加機(jī)制,兼顧及時(shí)性與完整性
4.6 基于調(diào)用鏈的故障定界
局域調(diào)用鏈,定界根因微服務(wù)。
trace日志->調(diào)用鏈實(shí)時(shí)提取->調(diào)用鏈分析
4.7 故障定位
根因定位為獨(dú)立原子能力,訓(xùn)練態(tài)與推理態(tài)合一
根因發(fā)現(xiàn)定位,采用隨機(jī)游走
演譯推理。
五 AIOps建議
5.1 AIOps部署建議-選定成熟場(chǎng)景,循序漸進(jìn)部署AIOps
原因:
數(shù)據(jù)上不來(lái),數(shù)據(jù)質(zhì)量低下
命令下不去,缺乏自動(dòng)化運(yùn)維工具,不能主動(dòng)檢測(cè),恢復(fù)操作
模型不智能:不能有效積累日常運(yùn)維中標(biāo)注信息,不能實(shí)現(xiàn)模型自學(xué)習(xí)
建議:
成熟場(chǎng)景出發(fā),循序漸進(jìn)推進(jìn)部署,容錯(cuò)場(chǎng)景
數(shù)據(jù)上的來(lái)
命令下的去:對(duì)接后端工具
有效積累標(biāo)注數(shù)據(jù)。
運(yùn)維人員擁抱AI是大勢(shì)所趨。擁抱AI,對(duì)于自身的成長(zhǎng)進(jìn)階也有積極意義。如果堅(jiān)守故土一成不變,可能會(huì)面臨時(shí)代帶來(lái)的新挑戰(zhàn)。
查看活動(dòng)詳情:https://bbs.huaweicloud.com/blogs/281988
AI 運(yùn)維
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。