微吼云上線多路互動直播服務(wù) 加速多場景互動直播落地
879
2025-04-07
在開篇之前,讓我們以全局的眼光,探討一下運(yùn)維監(jiān)控工具如何選型以及構(gòu)建運(yùn)維監(jiān)控平臺的設(shè)計思路,如果你是剛剛?cè)胄羞\(yùn)維這個職業(yè),那么這個專欄非常適合你,如果你已經(jīng)在運(yùn)維職場深耕多年,那么也能幫助你開闊思路和眼界。
一、常見的運(yùn)維監(jiān)控工具
現(xiàn)在運(yùn)維監(jiān)控工具非常多,哪個好,哪個不好,哪個適合你,哪個不適合你,其實(shí)只有你了解了他們的特性后,才知道,所以從這里開始講起。
1、Cacti
Cacti是一套基于PHP,MySQL,SNMP及RRDTool開發(fā)的網(wǎng)絡(luò)流量監(jiān)測圖形分析工具。
簡單的說Cacti就是一個PHP程序。它通過使用SNMP協(xié)議獲取遠(yuǎn)端網(wǎng)絡(luò)設(shè)備和相關(guān)信息,(其實(shí)就是使用Net-SNMP 軟件包的snmpget 和snmpwalk 命令獲取)并通過RRDTOOL工具繪圖,通過PHP程序展現(xiàn)出來。我們使用它可以展現(xiàn)出監(jiān)控對象一段時間內(nèi)的狀態(tài)或者性能趨勢圖。
cacti是很老的一款監(jiān)控工具了,其實(shí)說它是一款流量監(jiān)控工具更合適,對流量監(jiān)控比較精準(zhǔn),但缺點(diǎn)很多,出圖不好看,不支持分布式,也沒有告警功能,所以使用的人會越來越少。
2、Nagios
Nagios是一款開源的免費(fèi)網(wǎng)絡(luò)監(jiān)視工具,能有效監(jiān)控Windows、Linux和Unix的主機(jī)狀態(tài),交換機(jī)路由器等網(wǎng)絡(luò)設(shè)置,打印機(jī)等。在系統(tǒng)或服務(wù)狀態(tài)異常時發(fā)出郵件或短信報警第一時間通知網(wǎng)站運(yùn)維人員,在狀態(tài)恢復(fù)后發(fā)出正常的郵件或短信通知。
nagios主要的特征是監(jiān)控告警,最強(qiáng)大的就是告警功能,可支持多種告警方式,但缺點(diǎn)是沒有強(qiáng)大的數(shù)據(jù)收集機(jī)制,并且數(shù)據(jù)出圖也很簡陋,當(dāng)監(jiān)控的主機(jī)越來越多時,添加主機(jī)也非常麻煩,配置文件都是基于文本配置的,不支持web方式管理和配置,這樣很容易出錯,不宜維護(hù)。
3、Zabbix
zabbix是一個基于WEB界面的提供分布式系統(tǒng)監(jiān)視以及網(wǎng)絡(luò)監(jiān)視功能的企業(yè)級的開源解決方案。zabbix能監(jiān)視各種網(wǎng)絡(luò)參數(shù),保證服務(wù)器系統(tǒng)的安全運(yùn)營;并提供強(qiáng)大的通知機(jī)制以讓系統(tǒng)運(yùn)維人員快速定位/解決存在的各種問題。
zabbix由2部分構(gòu)成,zabbix server與可選組件zabbix agent。zabbix server可以通過SNMP,zabbix agent,ping,端口監(jiān)視等方法提供對遠(yuǎn)程服務(wù)器/網(wǎng)絡(luò)狀態(tài)的監(jiān)視,數(shù)據(jù)收集等功能,它可以運(yùn)行在Linux, Solaris, HP-UX, AIX, Free BSD, Open BSD, OS X等平臺上。
zabbix解決了cacti沒有告警的不足,也解決了nagios不能通過web配置的缺點(diǎn),同時還支持分布式部署,這使得它迅速流行起來,zabbix也成為目前中小企業(yè)監(jiān)控最流行的運(yùn)維監(jiān)控平臺。
當(dāng)然,zabbix也有不足之處,它消耗的資源比較多,如果監(jiān)控的主機(jī)非常多時,可能會出現(xiàn)監(jiān)控超時、告警超時等現(xiàn)象,不過也有很多解決辦法,比如提高硬件性能、改變zabbix監(jiān)控模式等。
4、Ganglia
Ganglia是一款為HPC(高性能計算)集群而設(shè)計的可擴(kuò)展的分布式監(jiān)控系統(tǒng),它可以監(jiān)視和顯示集群中的節(jié)點(diǎn)的各種狀態(tài)信息,它由運(yùn)行在各個節(jié)點(diǎn)上的gmond守護(hù)進(jìn)程來采集CPU 、內(nèi)存、硬盤利用率、I/O負(fù)載、網(wǎng)絡(luò)流量情況等方面的數(shù)據(jù),然后匯總到gmetad守護(hù)進(jìn)程下,使用rrdtool存儲數(shù)據(jù),最后將歷史數(shù)據(jù)以曲線方式通過PHP頁面呈現(xiàn)。
Ganglia監(jiān)控系統(tǒng)有三部分組成,分別是gmond、gmetad、webfrontend。gmond安裝在需要收集數(shù)據(jù)的客戶端,gmetad是服務(wù)端,webfrontend是一個php的web ui界面,ganglia通過gmond收集數(shù)據(jù),然后在webfrontend進(jìn)行展示。
ganglia的主要特征是收集數(shù)據(jù),并集中展示數(shù)據(jù),這是ganglia的優(yōu)勢和特色,ganglia可以將所有數(shù)據(jù)匯總到一個界面集中展示,并且支持多種數(shù)據(jù)接口,可以很方面的擴(kuò)展監(jiān)控,同時,最為重要的是,ganglia收集數(shù)據(jù)非常輕量級,客戶端的gmond程序基本不耗費(fèi)系統(tǒng)資源,而這個特點(diǎn)剛好彌補(bǔ)了zabbix消耗性能的不足。
最后,ganglia在對大數(shù)據(jù)平臺的監(jiān)控更為智能,只需要一個配置文件,即可開通ganglia對hadoop、spark的監(jiān)控,監(jiān)控指標(biāo)有近千個,完全滿足了對大數(shù)據(jù)平臺的監(jiān)控需求。
5、Centreon
Centreon是一款功能強(qiáng)大的分布式IT監(jiān)控系統(tǒng),它通過第三方組件可以實(shí)現(xiàn)對網(wǎng)絡(luò)、操作系統(tǒng)和應(yīng)用程序的監(jiān)控:首先,它是開源的,我們可以免費(fèi)使用它;其次,它的底層采用類似nagios的監(jiān)控引擎作為監(jiān)控軟件,同時監(jiān)控引擎通過ndoutil模塊將監(jiān)控到的數(shù)據(jù)定時寫入數(shù)據(jù)庫中,而Centreon實(shí)時從數(shù)據(jù)庫讀取該數(shù)據(jù)并通過Web界面展現(xiàn)監(jiān)控數(shù)據(jù);最后,我們可以通過Centreon web一鍵管理和配置主機(jī),或者說Centreon就是nagios的一個管理配置工具,通過Centreon提供的Web配置界面,可以輕松完成nagios需要手工配置主機(jī)和服務(wù)的不足。
centreon的強(qiáng)項是一鍵配置和管理,并支持分布式監(jiān)控,nagios能夠完成的功能,通過centreon都能實(shí)現(xiàn),同時,centreon還可以和ganglia進(jìn)行集成,centreon將ganglia收集到的數(shù)據(jù)進(jìn)行整合,可以實(shí)現(xiàn)主機(jī)自動加入監(jiān)控以及自動告警的功能。
6、Prometheus
Prometheus是一套開源的系統(tǒng)監(jiān)控報警框架,它既適用于面向服務(wù)器等硬件指標(biāo)的監(jiān)控,也適用于高動態(tài)的面向服務(wù)架構(gòu)的監(jiān)控。對于現(xiàn)在流行的微服務(wù),Prometheus的多維度數(shù)據(jù)收集和數(shù)據(jù)篩選查詢語言也是非常的強(qiáng)大。Prometheus是為服務(wù)的可靠性而設(shè)計的,當(dāng)服務(wù)出現(xiàn)故障時,它可以使你快速定位和診斷問題。
7、Grafana
Grafana是一個開源的度量分析與可視化套件,通俗的說,Grafana就是一個圖形可視化展示平臺,它通過各種炫酷的界面效果展示我們的監(jiān)控數(shù)據(jù),
如果你覺得zabbix的出圖界面不夠好看,逼格不夠高,就可以使用Grafana的可視化展示,同時,Grafana支持許多不同的數(shù)據(jù)源,Graphite,InfluxDB,OpenTSDB,Prometheus,elasticsearch,CloudWatch和KairosDB都可以完美支持。
8、對比圖
二、統(tǒng)一運(yùn)維監(jiān)控平臺設(shè)計思路
運(yùn)維監(jiān)控平臺不是簡單的下載一個開源工具,然后搭建起來就行了,它需要根據(jù)監(jiān)控的環(huán)境和特點(diǎn)進(jìn)行各種整合和二次開發(fā),以達(dá)到與自己的需求完全吻合的程度。那么下面就談?wù)勥\(yùn)維監(jiān)控平臺的設(shè)計思路。
構(gòu)建一個智能的運(yùn)維監(jiān)控平臺,必須以運(yùn)行監(jiān)控和故障報警這兩個方面為重點(diǎn),將所有業(yè)務(wù)系統(tǒng)中所涉及的網(wǎng)絡(luò)資源、硬件資源、軟件資源、數(shù)據(jù)庫資源等納入統(tǒng)一的運(yùn)維監(jiān)控平臺中,并通過消除管理軟件的差別,數(shù)據(jù)采集手段的差別,對各種不同的數(shù)據(jù)來源實(shí)現(xiàn)統(tǒng)一管理、統(tǒng)一規(guī)范、統(tǒng)一處理、統(tǒng)一展現(xiàn)、統(tǒng)一用戶登錄、統(tǒng)一權(quán)限控制,最終實(shí)現(xiàn)運(yùn)維規(guī)范化、自動化、智能化的大運(yùn)維管理。
智能的運(yùn)維監(jiān)控平臺,設(shè)計架構(gòu)從低到高可以分為6層,三大模塊,如下圖:
數(shù)據(jù)收集層:位于最底層,主要收集網(wǎng)絡(luò)數(shù)據(jù)、業(yè)務(wù)系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、操作系統(tǒng)數(shù)據(jù)等,然后將收集到的數(shù)據(jù)進(jìn)行規(guī)范化并進(jìn)行存儲。
數(shù)據(jù)展示層:位于第二層,是一個Web展示界面,主要是將數(shù)據(jù)收集層獲取到的數(shù)據(jù)進(jìn)行統(tǒng)一展示,展示的方式可以是曲線圖、柱狀圖、餅狀態(tài)等,通過將數(shù)據(jù)圖形化,可以幫助運(yùn)維人員了解一段時間內(nèi)主機(jī)或網(wǎng)絡(luò)的運(yùn)行狀態(tài)和運(yùn)行趨勢,并作為運(yùn)維人員排查問題或解決問題的依據(jù)。
數(shù)據(jù)提取層:位于第三層,主要是對從數(shù)據(jù)收集層獲取到的數(shù)據(jù)進(jìn)行規(guī)格化和過濾處理,提取需要的數(shù)據(jù)到監(jiān)控報警模塊,這個部分是監(jiān)控和報警兩個模塊的銜接點(diǎn)。
報警規(guī)則配置層:位于第四層,主要是根據(jù)第三層獲取到的數(shù)據(jù)進(jìn)行報警規(guī)則設(shè)置、報警閥值設(shè)置、報警聯(lián)系人設(shè)置和報警方式設(shè)置等。
報警事件生成層:位于第五層,主要是對報警事件進(jìn)行實(shí)時記錄,將報警結(jié)果存入數(shù)據(jù)庫以備調(diào)用,并將報警結(jié)果形成分析報表,以統(tǒng)計一段時間內(nèi)的故障率和故障發(fā)生趨勢。
用戶展示管理層:位于最頂層,是一個Web展示界面,主要是將監(jiān)控統(tǒng)計結(jié)果、報警故障結(jié)果進(jìn)行統(tǒng)一展示,并實(shí)現(xiàn)多用戶、多權(quán)限管理,實(shí)現(xiàn)統(tǒng)一用戶和統(tǒng)一權(quán)限控制。
在這6層中,從功能實(shí)現(xiàn)劃分,又分為三個模塊,分別是數(shù)據(jù)收集模塊、數(shù)據(jù)提取模塊和監(jiān)控報警模塊,每個模塊完成的功能如下:
數(shù)據(jù)收集模塊:此模塊主要完成基礎(chǔ)數(shù)據(jù)的收集與圖形展示。數(shù)據(jù)收集的方式有很多種,可以通過SNMP實(shí)現(xiàn),也可以通過代理模塊實(shí)現(xiàn),還可以通過自定義腳本實(shí)現(xiàn)。常用的數(shù)據(jù)收集工具有Cacti、Ganglia等。
數(shù)據(jù)提取模塊:此模板主要完成數(shù)據(jù)的篩選過濾和采集,將需要的數(shù)據(jù)從數(shù)據(jù)收集模塊提取到監(jiān)控報警模塊中。可以通過數(shù)據(jù)收集模塊提供的接口或自定義腳本實(shí)現(xiàn)數(shù)據(jù)的提取。
監(jiān)控報警模塊:此模塊主要完成監(jiān)控腳本的設(shè)置、報警規(guī)則設(shè)置,報警閥值設(shè)置、報警聯(lián)系人設(shè)置等,并將報警結(jié)果進(jìn)行集中展現(xiàn)和歷史記錄。常見的監(jiān)控報警工具有Nagios、Centreon等。
在了解了運(yùn)維監(jiān)控平臺的一般設(shè)計思路之后,接下來詳細(xì)介紹下如何通過軟件實(shí)現(xiàn)這樣一個智能運(yùn)維監(jiān)控系統(tǒng)。
下圖是根據(jù)上圖的設(shè)計思路形成的一個運(yùn)維監(jiān)控平臺實(shí)現(xiàn)拓?fù)鋱D,從圖中可以看出,主要有三大部分組成,分別是數(shù)據(jù)收集模塊、監(jiān)控報警模塊和數(shù)據(jù)提取模塊,其中,數(shù)據(jù)提取模塊用于其他兩個模塊之間的數(shù)據(jù)通信,而數(shù)據(jù)收集模塊可以有一臺或多臺數(shù)據(jù)收集服務(wù)器組成,每個數(shù)據(jù)收集服務(wù)器可以直接從服務(wù)器群組收集各種數(shù)據(jù)指標(biāo),經(jīng)過規(guī)范數(shù)據(jù)格式,最終將數(shù)據(jù)存儲到數(shù)據(jù)收集服務(wù)器中。監(jiān)控報警模塊通過數(shù)據(jù)抽取模塊從數(shù)據(jù)收集服務(wù)器獲取需要的數(shù)據(jù),然后設(shè)置報警閥值、報警聯(lián)系人等,最終實(shí)現(xiàn)實(shí)時報警。報警方式支持手機(jī)短信報警、郵件報警等,另外,也可以通過插件或者自定義腳本來擴(kuò)展報警方式。這樣一整套監(jiān)控報警平臺就基本實(shí)現(xiàn)了。
三、企業(yè)運(yùn)維監(jiān)控平臺選型
1、中小企業(yè)監(jiān)控平臺選擇Zabbix
Zabbix是一款綜合了數(shù)據(jù)收集、數(shù)據(jù)展示、數(shù)據(jù)提取、監(jiān)控報警配置、用戶展示等方面的一款綜合運(yùn)維監(jiān)控平臺。
Zabbix學(xué)習(xí)入門較快,功能也很強(qiáng)大,是一個可以迅速用起來的監(jiān)控軟件,能夠滿足中小企業(yè)的監(jiān)控報警需求,因此是中小型企業(yè)運(yùn)維監(jiān)控的首選平臺。但是,Zabbix當(dāng)監(jiān)控服務(wù)器數(shù)量較多時,會產(chǎn)生很多問題,如監(jiān)控數(shù)據(jù)不準(zhǔn)確、報警超時等等問題,這是因?yàn)閆abbix對服務(wù)器性能要求較高,當(dāng)監(jiān)控的服務(wù)器數(shù)量超過500臺后,監(jiān)控性能急劇下降,此時需要進(jìn)行分布式監(jiān)控部署,并且需要提升監(jiān)控服務(wù)器的性能。
安全性方面,Zabbix客戶端的agent如果故障,收集到的數(shù)據(jù)將丟失,同時Zabbix Server也是單點(diǎn),可能還需要對Zabbix Server做HA保證數(shù)據(jù)的安全和監(jiān)控的高可用。
2、互聯(lián)網(wǎng)大企業(yè)監(jiān)控平臺選擇Ganglia+Centreon
開源監(jiān)控軟件組合應(yīng)用+二次開發(fā)是大型互聯(lián)網(wǎng)企業(yè)構(gòu)建監(jiān)控平臺的一個基本策略,對于有海量服務(wù)器、多業(yè)務(wù)系統(tǒng)的復(fù)雜監(jiān)控,沒有哪個軟件能獨(dú)立完成企業(yè)的所有監(jiān)控需求,因此,多種開源監(jiān)控軟件組合應(yīng)用+二次開發(fā)才是監(jiān)控平臺的最終方向。
推薦ganglia是因?yàn)間anglia客戶端軟件對服務(wù)資源占用非常低,并且擴(kuò)展插件非常多,監(jiān)控擴(kuò)展也非常容易,同時結(jié)合專業(yè)的web監(jiān)控平臺centreon,可以實(shí)現(xiàn)在數(shù)據(jù)收集、數(shù)據(jù)展示、數(shù)據(jù)提取、監(jiān)控報警配置、用戶展示等方面的完美配合,因此這里對海量服務(wù)器進(jìn)行監(jiān)控我們推薦ganglia+centreon組合。
四、說說我們運(yùn)維監(jiān)控平臺的演變歷程
這是一個經(jīng)驗(yàn)和總結(jié),我結(jié)合這么多年我們監(jiān)控平臺的演變,總結(jié)了一下不同階段、不同機(jī)器數(shù)量,監(jiān)控平臺需要的構(gòu)建思路和策略。
1、機(jī)器數(shù)量小于100臺的階段
這個時期由于機(jī)器數(shù)量較少,因此,對監(jiān)控的需求也很簡單,監(jiān)控的用途可能主要用于通知問題、快速定位與解決問題,大致總結(jié)一下,此階段監(jiān)控平臺的特點(diǎn)如下:
(1)、部署簡單,上手易用
(2)、穩(wěn)定運(yùn)行,不出故障
(3)、可進(jìn)行報警,以郵件、短信等形式
基于以上特點(diǎn)和需求,可以使用比較流行開源的監(jiān)控軟件Nagios,Cacti,Zabbix,Ganglia等等。流行的開源產(chǎn)品文檔很多,可快速上手,并且有大量的前人使用經(jīng)驗(yàn),遇到問題也很容易解決。
最初我們選擇了nagios,因?yàn)檫@款軟件是最早流行的,后來因?yàn)橹鳈C(jī)和服務(wù)添加不方便,切換到了zabbix上了,此階段,zabbix應(yīng)該是最好的選擇。
2、機(jī)器數(shù)量200到1000的階段
這個階段,由于機(jī)器數(shù)量變多,監(jiān)控需求也開始變得復(fù)雜,不過主要還是用于通知、告警,發(fā)現(xiàn)問題,并避免同樣的問題再次發(fā)生,根據(jù)這個階段的特點(diǎn),我們在這個時期主要對監(jiān)控平臺做了以下工作:
(1)、監(jiān)控內(nèi)容分類:由于要監(jiān)控的機(jī)器很多,監(jiān)控內(nèi)容也隨之增多,于是我們將監(jiān)控根據(jù)用途不同,進(jìn)行了分類,主要分為系統(tǒng)基礎(chǔ)監(jiān)控數(shù)據(jù)、網(wǎng)絡(luò)監(jiān)控數(shù)據(jù)和業(yè)務(wù)監(jiān)控數(shù)據(jù)。
(2)、全覆蓋式監(jiān)控:將所有機(jī)器均納入監(jiān)控中,主要包含軟件監(jiān)控和硬件監(jiān)控,硬件監(jiān)控主要是監(jiān)控硬件性能和故障,軟件監(jiān)控除了第一步提到的各種基礎(chǔ)監(jiān)控數(shù)據(jù)外,還增加了業(yè)務(wù)邏輯監(jiān)控,盡可能的覆蓋業(yè)務(wù)流程,通過大量自定義監(jiān)控減少和去除重復(fù)的問題,保障業(yè)務(wù)穩(wěn)定運(yùn)行。
(3)、多種告警方式,確保無漏報:將所有監(jiān)控根據(jù)重要程度、緊急程度進(jìn)行分類,分別用郵件,微信,短信,電話等不同級別的方式進(jìn)行通知,每個監(jiān)控對應(yīng)到不同的人,確保每個監(jiān)控都有人處理,并且對于重要的業(yè)務(wù)采用持續(xù)通知的方式,不處理就一直通知。
這個階段的難點(diǎn)是對告警信息的處理,由于機(jī)器越來越多,需要監(jiān)控的服務(wù)也越來越多,告警信息就出現(xiàn)了爆發(fā)式增長,每天收到上千封報警郵件是經(jīng)常的事情。 過多的郵件出現(xiàn),其實(shí)就失去了告警的意義,因?yàn)槲覀儾豢赡苋ゲ榭疵恳环忄]件,而這么多告警郵件中,很多都是非必要的告警,例如系統(tǒng)負(fù)載偶爾增高一下,就發(fā)了告警郵件,這完全是不需要的。
因此,這個階段,主要是對監(jiān)控告警策略進(jìn)行配置和優(yōu)化,盡量減少不必要的告警郵件,例如,對系統(tǒng)負(fù)載的監(jiān)控,可以選擇連續(xù)幾次負(fù)載超過閥值,然后持續(xù)多久之后才進(jìn)行告警操作,通過對告警策略的優(yōu)化,告警信息大大減少,每天最多幾十封,這樣的話,就不會錯過任何告警信息了。
3、機(jī)器數(shù)量超過1000臺的階段
由于業(yè)務(wù)持續(xù)增長,對服務(wù)器需求越來越多,當(dāng)我們的服務(wù)器超過1000臺以后,監(jiān)控的情況發(fā)生了變化,或者說監(jiān)控出現(xiàn)了很多奇怪的問題,主要
有如下一些:
(1)、告警不及時
當(dāng)我們服務(wù)器超過1000臺以后,我們的zabbix就經(jīng)常罷工,有時候監(jiān)控數(shù)據(jù)不能及時顯示,有時候告警遲遲不來,特別是告警延時,這個是最恐怖的事情,線上業(yè)務(wù)7*24小時不能出現(xiàn)故障,雖然監(jiān)控到了異常,但是通過監(jiān)控系統(tǒng)發(fā)出來已經(jīng)是1個或者幾個小時之后了,那監(jiān)控還有什么意義呢,及時性是監(jiān)控系統(tǒng)的第一要求,這個是必須要解決的問題。
如何解決這個問題呢,除了對監(jiān)控進(jìn)行優(yōu)化,例如分布式proxy方式部署,開啟zabbix主動模式,還對數(shù)據(jù)收集進(jìn)行了擴(kuò)展和優(yōu)化,我們對基礎(chǔ)數(shù)據(jù)的收集,拋棄了zabbix來實(shí)現(xiàn),而采用ganglia,而對業(yè)務(wù)數(shù)據(jù)部分實(shí)現(xiàn)仍然采用zabbix完成,通過將收集數(shù)據(jù)的負(fù)載進(jìn)行分擔(dān),大大減低了zabbix的負(fù)載,數(shù)據(jù)收集的準(zhǔn)確性,及時性又恢復(fù)正常了。
(2)、告警系統(tǒng)出現(xiàn)了單點(diǎn)故障
由于服務(wù)器眾多,收集的數(shù)據(jù)也飛速增長,曾經(jīng)有一次,監(jiān)控服務(wù)器突然意外宕機(jī)了,等系統(tǒng)恢復(fù)啟動起來,已經(jīng)是一個小時以后了,這一個小時運(yùn)維就變成了睜眼瞎了,多可怕的事情。
自從發(fā)生監(jiān)控系統(tǒng)宕機(jī)事故后,我們對監(jiān)控服務(wù)器進(jìn)行了分布式高可用部署,以避免單點(diǎn)故障,同時對監(jiān)控到的數(shù)據(jù)進(jìn)行遠(yuǎn)程異地備份,當(dāng)監(jiān)控服務(wù)器故障后,會自動切換到備用監(jiān)控系統(tǒng)上,并且監(jiān)控數(shù)據(jù)自動保存同步。
(3)、告警需求監(jiān)控系統(tǒng)無法滿足
業(yè)務(wù)的增加,客戶對業(yè)務(wù)穩(wěn)定性要求變得更加苛刻,為了保證業(yè)務(wù)系統(tǒng)穩(wěn)定運(yùn)行,業(yè)務(wù)邏輯監(jiān)控需求被提出來了,業(yè)務(wù)邏輯監(jiān)控就是對業(yè)務(wù)系統(tǒng)的運(yùn)行邏輯進(jìn)行監(jiān)控,當(dāng)業(yè)務(wù)運(yùn)行邏輯故障時候,也需要進(jìn)行告警,很顯然,對業(yè)務(wù)邏輯的監(jiān)控,沒有現(xiàn)成的工具和代碼,只能根據(jù)業(yè)務(wù)邏輯自行開發(fā),通過提高業(yè)務(wù)邏輯接口,匯報數(shù)據(jù)等方式,我們對zabbix進(jìn)行了多項二次開發(fā),以滿足對業(yè)務(wù)邏輯的監(jiān)控。
最后,運(yùn)維監(jiān)控平臺是運(yùn)維工作中不可或缺的一部分,如何構(gòu)建適合自己的運(yùn)維監(jiān)控平臺,每個公司的需求不一樣,每個運(yùn)維面對的痛點(diǎn)也不盡相同,但,不管有什么需求,多少需求,萬變不離其宗,有了機(jī)器上的各種監(jiān)控數(shù)據(jù),運(yùn)維就能做很多事情。運(yùn)維監(jiān)控的路上,我們一起前行。
技術(shù)彩蛋
~~~~~~~~~~~~~~~~~~~~~~~~~~~
說了這么多,那么問題來了,怎么構(gòu)建一套適合自己的運(yùn)維監(jiān)控平臺呢,我將多年來工作經(jīng)驗(yàn)進(jìn)行了總結(jié)和提煉,寫成了專欄《無監(jiān)控,不運(yùn)維》點(diǎn)擊前往,15篇文章打通運(yùn)維監(jiān)控任通二脈,讓經(jīng)驗(yàn)說話:
能學(xué)到什么技能
運(yùn)維
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。