【乘風破浪的開發者】華為云MVP袁覃:ModelArts助力銀行客戶經理的變形記
824
2025-03-31
陳星虎
2009年6月,大學畢業,我同時拿到華為和C公司的offer,班里的同學都說:“簽C公司吧,聽說工作輕松點,大家還能繼續玩耍,一起工作”。可我覺得華為是國內最好的通信公司,可以和最牛的人一起,學到最先進的技術,是多么好的機會??!老爸看到我的糾結,對我說:“你一定要遵循自己內心的選擇才不會后悔。”于是,我加入了華為,來到了西研所無線網絡OSS大家庭。
這一晃,就是十年。十年,不過是時間長河里的驚鴻一瞥,于我,卻是人生一段充實而精彩的旅程——在一個優秀的團隊,和一群有想法的人,做一些有成就感的事情。
不稱職的球迷,稱職的“守門員”
2010年6月,入職不到一年的我,“幸運地”參與了南非世界杯的通信保障。由于是世界杯,場館和周邊都是重點保障區域,客戶的網絡運維人員需要實時監控場館的通信指標??删驮陂_幕式前不到一周,實時監控反復出現丟數據、自動取消監控的現象。
版本經理老謝立刻前往一線查看具體情況,項目組了解這塊業務的其他老員工全都出差一線支撐其他項目,這個問題自然而然地落到了留守的我的肩上。眼看4天后就是世界杯了,再看看眼前這個棘手的問題,感覺自己就像熱鍋上的螞蟻般坐立不安,好久不長的口腔潰瘍也出來湊熱鬧了。
時間緊,任務重,唯有盡快行動起來,想盡一切辦法把問題搞定。于是,我開始搭建測試環境、在環境上跑業務、熟悉代碼和流程。我還第一次主動協調網元的兄弟一起攻關,模擬重現問題場景。經過整整三天不知疲憊的奮戰,終于,在世界杯的前一天,給出了解決方案。解決問題的那一刻,心里的石頭總算落了地,呼吸都變得更加順暢了。
世界杯開幕式當晚22:00,隔著6個小時的時差,我一個人守在西安的辦公室,和遠在約翰內斯堡的老謝打著越洋電話,以全新的方式迎接世界杯的到來。
我:“實時監控正常不?”
老謝:“嗯,暫時沒有發現問題。”
我:“客戶現在創建監控任務沒?”
老謝:“暫時沒有?!?/p>
我:“能不動先別動,以不變應萬變?!?/p>
我突然想到比賽,忍不住問:“你在那邊能看開幕式不?精彩不?”
雖然我是個不折不扣的老球迷,錯過了等待4年的世界杯,但在賽場之外做好“守門員”,保障世界杯通信,比看一場完勝的比賽還要暢快淋漓。這樣一種特別的觀看形式,比以往任何一次都有意義。
懷疑和直覺,讓我有如神助
可能是骨子里有種不服輸的勁兒,我對網上問題總有一種“迷戀”。2013年,我成為北向性能組的維護PL。當時項目組人員新,模塊問題多,問題數量長期霸榜,我總覺得時間不夠用。有時候騎自行車下班,腦海里翻來覆去的還是怎么解決問題,想到一點什么就停下車,記在手機備忘錄里,第二天再接著分析。所以一大早到工位,我開口就是“昨天騎車時,我想到……”身邊的同事總是打趣我:“你是不是一騎上自行車,就會有很多靈感?”
也許是習慣吧,遇到任何可疑的地方,我都要把邏輯想通,把代碼想通。例如有的問題可能是磁盤空間滿引起的,解決了磁盤空間的問題,就恢復了。但我在仔細讀取日志時,還發現了數據庫錯誤的信息,就會想,這個錯誤并不影響問題的解決,可是為什么會報錯?必須把這點搞清楚才能心安。慢慢地,我在不斷追問“為什么”的過程中,形成了一種直覺,就像代碼的“壞味道”一樣,我如果覺得“怪怪”的地方,很可能就是出問題的地方。
2014年10月,Z國J局點突發緊急問題,內存暴漲導致服務器不定時宕機,由于內存暴漲只發生在瞬間,不到1秒就消失得無影無蹤,監控都無法記錄到是什么原因觸發的。
項目組小孫直接被派往一線現場支撐,強子在家里定位??粗鴱娮泳o皺的眉頭,我意識到問題的棘手。
看了看局點授權返回的日志,依稀感覺和之前A局點的日志“長得很像”,盡管A局點當時的問題是其他原因引起的,但我留意過它還出現了內存跳變增長的異常,并“順便”分析了原因。沒想到,就是當時的“順便”分析,讓我此刻對J局點的問題恢復有了直覺。
“小孫,你看看客戶是不是在集中任務中創建了一些MML腳本?”
小孫:“有,咋了?”
“我懷疑跟這有關系。你讓一線用鼠標點一下X任務,注意監控內存,準備中止Y進程?!?/p>
“我試試。”話音剛落,小孫就發現內存開始快速上漲?!皾q了!漲了!重現了!”他驚訝地大喊。
“你把這個任務后臺對應的結果文件移動一下,然后再重新點一下X任務。”
“我的天,不漲了! ”老孫盯著我看了半天,簡直不敢相信,在沒有收集腳本、也沒有監控到內存上漲的服務情況下,問題就這么輕易地解決了,一時說不出話來。
等緩過神,他忙問我是怎么知道原因的。其實我就是憑直覺,隱隱覺得這個問題和A局點的有相似之處,于是印證了一下,沒想到這么快就定位好了。
還有一次,凌晨3點,A國Y局點系統運行緩慢,8100連環call。這個問題是“老大難”問題,兩年時間里,每次出現都要通宵兩天、脫掉一層皮才能恢復,所有人談Y局點色變。
我揉著惺忪的雙眼,確認得到客戶授權后,遠程電腦查看上百個進程,突然感覺幾個打包壓縮進程“怪怪”的,檢查發現是一個XFTP (文件主動推送)服務觸發的。我試著讓局點停掉這個服務,果然,Med(網元連接處理元數據的服務)很快恢復正常了,性能也不延遲了。沒想到,困擾兩年的問題居然在30分鐘內解決了!后來繼續定位,我發現根因是打包壓縮進程運行期間系統調用頻繁,導致其他業務運行緩慢,奇怪的是在其他局點從沒出現過這種情況,所以大家怎么也猜不到。
同事老王看到我一連串迅速有效的處理,瞪大了眼睛,一臉疑惑:“你用的哪門子“神功”定位的?”
哪有什么“神功”,我不過在疑難問題中不斷懷疑、深入分析罷了。怎樣從處理1個問題中獲得10份經驗?如果定位完問題,不對問題繼續深挖,那就只能得到一份經驗;而深挖一下,會發現,呈現在面前的居然是一座金庫,里頭滿是寶貝,滿是知識點。這些知識點在以后的某個瞬間可能就會幫到你,讓你猶如神助。
維護要把人解放出來
作為一名維護人員,我還有一顆開發人員的心。我從一入職就開始寫工具,后來我也要求兄弟們定位問題要工具化、智能化。
我們一直說“30分鐘快速恢復問題”,但之前很多問題都需要人來定位,其實很難做到這個要求。2017年,我主導設計了EMS-FMA(網管故障運維助手)工具。當故障發生時,EMS-FMA自動對“故障樹”每個節點的可能原因進行分析,得到故障原因。這就好比,一棵樹上都是“故障現象”, EMS-FMA可以從樹梢到樹干、樹根,層層還原現象的原因,定位根因。我們現在遇到客戶端無法登錄的問題,90%都是通過這個工具診斷出原因的。有了新的場景,我們就繼續增加到故障樹上,隨著新問題越來越多,維護人員經驗不斷豐富,故障模式庫也越來越完善,模式庫就成了集所有維護人員智慧于一體的“大腦”了。
除了這個定位問題的工具,當前,我們正在探索讓網絡問題“自愈”的技術:通過機器學習輔助發現、定位、恢復問題。舉個例子,數據庫異常導致某個場景故障,異常是因為數據庫里有一個長事務(執行時間比較長可能會影響其他業務的SQL語句)阻塞了其他事務。我們就開發了一個工具,定時去監控有沒有長事務,有就“干”掉,系統就實現了“自愈”。還有一些是從產品能力去設計的,比如經常出現磁盤空間滿的問題,我們就主動規劃磁盤空間配額,分析每個模塊的配額,讓每個特性具備自規劃的能力,以此預防問題的發生。
維護最重要的是防微杜漸,而這些工具起到的作用就是預防。通過智能化工具、維護工具、測試工具等,可以有效提升問題定位的效率,提升產品質量。而維護工程師有了過硬的維護定位能力和良好的開發技能,一定能在當前崗位做出不一樣的價值。
回望這十年,工作和生活非常充實。我妻子也是搞通信的,非常支持和理解我的工作。兒子也以我為榮,經常自豪地告訴別的小朋友:“我爸爸是工程師,可以幫別人打通電話,我爸爸可偉大了!”不管是節假日還是深夜,每當出現故障需要加班緊急處理時,我說“有個地方的叔叔阿姨打不了電話,爸爸要去支撐一下,這樣別人才可能打通電話”,他都會懂事地點點頭,從不哭鬧。
自律使人自由,我每年還會給自己提一個挑戰目標。我想學互聯網技術,就利用碎片時間學習各種技術貼,每天在朋友圈分享一篇,已經堅持了一年;我想跑步健身,今年就堅持鍛煉,完成了首個半馬;我想學尤克里里,于是每周發一首彈唱視頻到朋友圈,堅持了一年,同事華姐還打趣地說:“我小孩現在每天都要看著你的朋友圈來學尤克里里了”。
未來,我還將以更飽滿的激情,對生活更誠摯的熱愛,迎接下一個更加精彩的十年!
本文為《華為人》版權所有,未經允許不得轉載。如需轉載請聯系編輯部hwrb@huawei.com
華為人期刊
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。