案例 | 小鵬汽車運維監控是如何落地實現的?
“運維應該更接近業務,做的監控也更應該接近業務,而不是單純在運維做閉環,而是要形成一個完整的閉環。”
——李曉凱,?物聯運維高級工程師,小鵬汽車
本文整理自李曉凱在2020Zabbix中國峰會的演講,ppt獲取請聯系小Z。更多演講視頻可關注官方Bilibili賬號主頁(ID:Zabbix中國)。
一? 網聯 - 移動網絡穩定性挑戰
01- 汽車&網聯
由于跟普通傳統的互聯網公司不太一樣,小鵬汽車在整個車聯網有較多的挑戰。比如說在車機方面要脫離傳統互聯網的思維和定論,本身整個車機更像是定位的大監控平臺,在產品設計之初,運維就已經開始入手了。汽車研發過程中就會參與到汽車信號、4G信號的穩定性,比如說電磁干擾、基站的信號通信等,會考慮更前一點深入到業務穩定性的測試過程,比如說路測,基站的通信信號對于車速會不會有什么影響,都做了詳細的收集以及分析。
而且收集這些數據后,推動相應的部門進行優化,比如說汽車天線在什么位置上會比較好?當前這個位置對于信號影響會不會有什么問題?對車機系統也會有一個深入的監控,比如說當時導航以及語音助手是否好用?比如說用戶在使用的時候,呼喚你好小P,它是否馬上就可以響應出來?是否能精準識別用戶的語音,同時支持用戶能做到實時的反饋結果,服務器是否穩定,這都是之前做監控的挑戰,而且都成功的把它實現了。
在整個監控方向,更前一步、更面向業務,這是整個小鵬汽車運維的理念,運維應該更接近業務,做的監控也更應該接近業務,而不是單純在運維做閉環,而是要形成一個完整的閉環。
02-?基本網絡拓撲
這是應用到小鵬汽車上的車聯網網絡。車聯網網絡在國內就是幾個出口,它跟咱們本地使用手機不是一樣的,出口是在國內的幾個節點,是固定的,內部會分為幾個通道,不同的通道會有不同通道承載著不同的服務。
第一個通道,是承載娛樂服務,一般是抖音、愛奇藝。
“運維應該更接近業務,做的監控也更應該接近業務,而不是單純在運維做閉環,而是要形成一個完整的閉環。”
——李曉凱,?物聯運維高級工程師,小鵬汽車
本文整理自李曉凱在2020Zabbix中國峰會的演講,ppt獲取請聯系小Z。更多演講視頻可關注官方Bilibili賬號主頁(ID:Zabbix中國)。
一? 網聯 - 移動網絡穩定性挑戰
01- 汽車&網聯
由于跟普通傳統的互聯網公司不太一樣,小鵬汽車在整個車聯網有較多的挑戰。比如說在車機方面要脫離傳統互聯網的思維和定論,本身整個車機更像是定位的大監控平臺,在產品設計之初,運維就已經開始入手了。汽車研發過程中就會參與到汽車信號、4G信號的穩定性,比如說電磁干擾、基站的信號通信等,會考慮更前一點深入到業務穩定性的測試過程,比如說路測,基站的通信信號對于車速會不會有什么影響,都做了詳細的收集以及分析。
而且收集這些數據后,推動相應的部門進行優化,比如說汽車天線在什么位置上會比較好?當前這個位置對于信號影響會不會有什么問題?對車機系統也會有一個深入的監控,比如說當時導航以及語音助手是否好用?比如說用戶在使用的時候,呼喚你好小P,它是否馬上就可以響應出來?是否能精準識別用戶的語音,同時支持用戶能做到實時的反饋結果,服務器是否穩定,這都是之前做監控的挑戰,而且都成功的把它實現了。
在整個監控方向,更前一步、更面向業務,這是整個小鵬汽車運維的理念,運維應該更接近業務,做的監控也更應該接近業務,而不是單純在運維做閉環,而是要形成一個完整的閉環。
02-?基本網絡拓撲
這是應用到小鵬汽車上的車聯網網絡。車聯網網絡在國內就是幾個出口,它跟咱們本地使用手機不是一樣的,出口是在國內的幾個節點,是固定的,內部會分為幾個通道,不同的通道會有不同通道承載著不同的服務。
第一個通道,是承載娛樂服務,一般是抖音、愛奇藝。
第二個通道是系統通道,由于跟阿里云服務器交互,下發指令,訪問后端服務的關鍵服務。
第三個是加密的通道,車控的通道,比如說大家用手機開啟它的空調、開車門。每個通道的應用方式是不同的,而且會著重優化車控的通道以及跟服務之間通信的通道。
03 -?車輛在線監控
根據統計,后端的實際車控的可用率是在99%以上,必須有個硬指標,要求用戶點擊手機之后他的空調能正常打開是要達到這個數值才符合最初的設定。但是在于這種物聯網的情況下,在整個車聯網、車控是基于MQTT協議來服務的。MQTT協議在物聯網是非常常見的協議,通過MQTT還能看到當時在這個時間段或者全天這個車輛會是一個什么樣的在線情況?它的連接是一個什么樣的情況?
當然這個東西是脫敏的,完全不知道這個用戶是誰,只知道這個時間段是有哪些車在線的。但是會在0點的時候,可能運營商會有切割,會比較常見,可能會遇到突然有這種波峰突然下墜或者是突然這種不穩定的情況,這個時候通過監測MQTT的連接數,就知道在某個區域或者某個地方的運營商的網絡是存在問題的,我們會主動去推運營商。這種車聯網公司跟傳統互聯網公司有一個比較大的區別,就是直接對的是運營商。比如手機APP開發出來之后,他們不需要太考慮網絡和運營商的溝通,但是我們頭痛的點需要推全國各地的運營商來幫定位、排查對應的問題,幫解決問題。
舉個例子之前有個用戶在海南 打電話過來,我的車在這個地方沒有4G信號了是什么情況?當時監測著MQTT的時候,連接數發現在海南的部分區域確實是有些用戶的車輛是不正常的,它的連接數也是連不上來的,一開始定位是T-box,或者說就是車機的一個路由器,或者說車機的聯網的東西是否有存在問題?定位之后發現這個問題更多是在運營商一側,所以說還會去推動運營商來幫解決這些問題。
04-?移動網絡下的網絡質量
這是內部的地廳系統,會收集內部有不同的產品線,比如說有租車和出行的業務部,會下發一些特定的探針到這些車上去收集這個車當時的基站的網絡信號是什么樣的情況?他的車速是什么樣一個情況?對線上的一些服務進行模擬探測,類似于APM那樣的方式。模擬本地應用去執行它整個的基站的使用情況是什么樣的?來達到監測的服務是否正常以及對應的區域。如果監測到比如說某個區域它那個點是紅色的,就說明它那個區域的基站是有問題的,或者說信號是不好的。如果發現用戶在這個區域反饋他的問題的時候,通知客服就會預判,告訴他這個地方的基站是不正常的,或者說你這個位置是不良的,所以說會導致你當前網絡是不正常的。
其實運維會跟兩條線,一條是產品線,一條是客戶線,都會密切的進行配合,這就是我說的目前整個的一個通道,就是會有OTA整車的產品系統升級以及娛樂通道、以及車控,都是基于下面T-box,通過APN通道去連接到的服務,這個是在互聯網汽車行業上是比較常見的一個方案,大家都是這樣用。
二? 監控 - 小鵬汽車的落地與實踐
01- 監控系統視圖
這是整個運維基礎監控的平臺界面,首先是要做到一個覆蓋度廣,對于關鍵業務,內部是要求100%覆蓋,對于核心業務也有指標,對于每天的報警統計,都會有對應的運維監控團隊輸出當天的運維報表。
小鵬汽車在監控方面參考了行業內比較專業的工具,進行二次開發打造成符合自己公司的產品,因為小鵬汽車本身是物聯網企業,大家常用的一些監控東西不能完全覆蓋到公司的產品,所以說要進行一些整合改進。當然最優秀的產品是Zabbix,吸取了Zabbix很多的經驗和功能點。但是Zabbix本身是一個基于服務器維度的監控。但是它對業務覆蓋不是非常足,所以說做了補充,開發這個產品來符合自己公司的應用。
02- 監控系統-任務模版
為了深入業務,提供給業務自定義擴展的接口和推送,他們直接調用統一的模板,就可以直接把它的報警策略推到系統上,只要按照的規范就會形成這樣操作。比如撥測、檢查,這些系統直接接收到它推送后進行識別,自動形成模板,同時也支持手動的自定義。
03 -?通過日志分析結果建立監控
有一套整體的日志分析系統,因為車機上會帶來大量的日志,比如說本身的 modern日志、大屏日志、應用日志,但是因為用的是全套的阿里云系統,所以會把這些日志都上報到阿里云的日志中心進行統一分析,通過日志來進行自定義的監控并進行處理。
04 -?告警模版
針對之前的業務、流量的定義,撥測做邏輯性的判斷來形成一定的告警推送,把這些推送給對應的業務人員,比如進程數、網絡的流量等,根據之前的一些策略實施告警下發。
05-?關聯屬性和業務場景
這一塊分業務監控跟基礎監控兩個方向,一個方向是整個看當前業務健康性以及一些服務器的基本信息,比如內存、硬盤還有網絡它本身的承載性。因為小鵬汽車大部分服務都承載在微服務上,整個有一套微服務的體系。但是有動態擴容,要監測本身的服務器的空間是否允許進行動態擴容。所以說會有兩套,一個是監控它的業務是否正常,比如上面的語音,另外一方面要監控承載這些服務器的容量、資源是否夠用。
06-?統一告警管理
所有的告警都是在推到的告警集中系統,在系統進行處理之后,通過釘釘或者是電話的方式來實時的發送給各位工作人員,他們是通過訂閱的方式來獲取自己需要的告警。因為公司的人員變動或者 說部門調整會比較多,所以還會根據組織架構方式來設置這個告警會推給誰。
07-?流程全回顧
同樣,我們的告警在內部是會分為幾個級別,最高級就是P1級,然后P2、P3這種等級,這種P2級以上,不管任何時候都會打到對應的人的電話,要求第一時間進行處理。有對應的NOC團隊跟進整個對應的告警流程,形成一個工單,這個問題是什么時候發現的?第一時間聯系了誰?哪些人在什么時間點上線?上線的時候大概什么時間內判斷是什么樣的一個問題?這個問題在什么時候誰來跟進?形成一個工單進行交互,每天完成之后會有一個對應的交接,把這些東西進行處理。
以上是我的分享,謝謝大家。
獲取ppt請聯系小Z。
交通智能體 運維
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。