大數(shù)據(jù)“復活”記
1072
2025-04-02
摘要
萬物互聯(lián)的時代,最不缺少的就是海量數(shù)據(jù),爆炸性增長的數(shù)據(jù)能給我們帶來什么價值,我們?nèi)绾瓮ㄟ^這些海量數(shù)據(jù)看清事物的本質(zhì),甚至能夠預測事物的發(fā)展趨勢,這些是我們面對的挑戰(zhàn)和需要解決的問題。時序數(shù)據(jù)庫是這個時代的產(chǎn)物,也不斷驅(qū)動著這個世界向萬物互聯(lián)不斷邁進。
概述
隨著5G技術(shù)的不斷成熟,物聯(lián)網(wǎng)技術(shù)得到了快速發(fā)展,萬物互聯(lián)的場景在我們身邊也越來越觸手可及。我們身邊的電子設(shè)備變得越來越多,手機、電腦、智能手表、全屋智能、自動駕駛汽車等等,承載的信息量成倍增加,數(shù)以億計的信息晝夜不停地描繪著這個世界。
物聯(lián)網(wǎng)時代,每個物體每時每刻都在產(chǎn)生各種維度的數(shù)據(jù)信息,這些信息盡可能全面的刻畫我們所生活的世界,這些采集到的數(shù)據(jù)信息,幫助我們更好的生活,不斷改變我們的生活方式。例如當下非常火熱的自動駕駛,需要在汽車上配備各種傳感器,用以實時采集運行時汽車的各項監(jiān)控數(shù)據(jù),采集的維度包括:坐標、速度、方向、溫度、功率等等。每輛汽車上的傳感器每天采集數(shù)據(jù)的數(shù)量級可能達到TB級。
這些采集到的數(shù)據(jù)和時間強相關(guān),采樣時間間隔固定,描述了物體在歷史時刻中測量數(shù)據(jù)的變化,我們將這種類型的數(shù)據(jù)統(tǒng)稱為時間序列(Time Series)數(shù)據(jù)。我們將這些時序數(shù)據(jù)存儲起來,這些海量數(shù)據(jù)不僅幫助我們了解物體的實時狀態(tài),通過多個維度的分析,更能夠幫助數(shù)據(jù)使用者更好的指定策略,分析目標對象的趨勢和規(guī)律等,甚至能夠幫助我們預測不確定的未來。
時序數(shù)據(jù)的特征
下圖是一個典型發(fā)電機組數(shù)據(jù)采樣示意圖。共有三臺發(fā)電機組,每個時間點分別采樣四種數(shù)據(jù):包括電壓、功率、頻率和電流相角。隨著時間的流逝,每個采樣的時間點將采樣到的數(shù)據(jù)源源不斷的傳輸。
這樣的時序數(shù)據(jù)場景隨處可見,那么面對采樣到的這些時序數(shù)據(jù),我們應(yīng)該怎樣存儲呢。
我們將示意圖轉(zhuǎn)化為具體的一張表中的數(shù)據(jù)存儲,從上圖中我們可以看到,橙色區(qū)域的列包含發(fā)電機、生產(chǎn)廠商、型號、位置、ID這五列,可以看到這五列表示發(fā)電機組的一些物理信息,不會隨時間的變化而變化;藍色部分的列包含電壓、功率、頻率、電流相角這四列,這些列是我們目標采樣維度,這些列存儲的采樣數(shù)據(jù)會隨著時間動態(tài)變化;最后一列為時間列,表示我們采樣的時間點。
綜上,我們將時序數(shù)據(jù)列做了以下三種分類:
Tag列:通常將表征數(shù)據(jù)源來源或者屬性信息的列作為Tag列,該列的數(shù)值通常相對穩(wěn)定,不隨時間變化而變化。
Field列:一般將采樣的維度作為數(shù)據(jù)列,因為該列的數(shù)據(jù)一般隨時間變化而變化,存儲各個指標的value。
Time列:表示采樣時刻的時間戳。
發(fā)電機組的某個指標隨時間變化形成一條時間線,通過tag + field + time組合確定一條時間線。發(fā)電機組采樣示意圖中每條虛線都可以表示為一條時間線。通過上述的發(fā)電機組的采樣模型我們對時序數(shù)據(jù)有一定的初步認識。那么相比較于傳統(tǒng)數(shù)據(jù)庫的應(yīng)用場景,時序場景下的數(shù)據(jù)存儲帶來了哪些挑戰(zhàn)呢?時序數(shù)據(jù)在實際采集過程中存在以下技術(shù)要求和特點:
海量數(shù)據(jù)寫入能力
例如在自動駕駛汽車監(jiān)測的數(shù)據(jù)每秒只采集5種測量數(shù)據(jù)(速度、溫度、發(fā)動機功率、方向、坐標),1000W量汽車每秒中將會有5000W的TPS。
寫入平穩(wěn)、持續(xù)
傳統(tǒng)業(yè)務(wù)數(shù)據(jù)通常和應(yīng)用的訪問量成正比,而訪問量通常存在波峰波。不同于傳統(tǒng)業(yè)務(wù)場景,時序數(shù)據(jù)的產(chǎn)生通常以一個固定的時間頻率進行采集,不會受其他因素的制約,其數(shù)據(jù)生成的速度是相對比較平穩(wěn)。
寫多讀少
時序數(shù)據(jù)90%左右的操作都是寫操作。主要與其應(yīng)用場景相關(guān),例如在監(jiān)控場景下,雖然每天需要存儲很多數(shù)據(jù),但是真正去讀取的數(shù)據(jù)通常比較少,通常只會關(guān)注幾個特定關(guān)鍵指標在一定時間范圍內(nèi)的數(shù)據(jù)。
高壓縮率
高壓縮率能夠帶來兩方面的收益。一方面能夠節(jié)省大量的硬件存儲成本,節(jié)省硬盤的開銷。另一方面壓縮后的數(shù)據(jù)可以更容易存儲到內(nèi)存中,顯著提高查詢的性能。
實時寫入最近生成的數(shù)據(jù),無更新
時序數(shù)據(jù)的寫入是實時的,采集的數(shù)據(jù)是反應(yīng)物體客觀信息,數(shù)據(jù)是隨著時間推進不斷產(chǎn)生,不存在舊數(shù)據(jù)更新場景。
最近的數(shù)據(jù)讀取概率高
最近時間的數(shù)據(jù)具有的價值越高,因此最近的數(shù)據(jù)被讀取的概率越高。例如在監(jiān)控場景下,最近幾個小時或者幾天的監(jiān)控數(shù)據(jù)最可能被訪問,而一個季度或者一年前的數(shù)據(jù)極少訪問。
多維度分析
時序數(shù)據(jù)來自不同個體,這些個體可能擁有不同的屬性。在監(jiān)控場景下,我們對某個集群上每臺機器上的網(wǎng)絡(luò)流量監(jiān)控,可以對集群下的某臺機器的網(wǎng)絡(luò)流量查詢,也可以對集群總的網(wǎng)絡(luò)流量查詢。
時序數(shù)據(jù)庫應(yīng)用場景
典型時序數(shù)據(jù)庫主要服務(wù)兩類業(yè)務(wù)場景,應(yīng)用性能監(jiān)控(Application Performance Management, APM)和物聯(lián)網(wǎng)(Internet of Things, IoT)
商業(yè)零售:電商系統(tǒng)訂單交易金額,支付金額數(shù)據(jù),尚品庫存,物流數(shù)據(jù);
金融交易:股票交易系統(tǒng)持續(xù)記錄股票價格,交易量等;
社會生活:智能電表會實時記錄每個小時的用電量數(shù)據(jù)等;
工業(yè)領(lǐng)域:工業(yè)機器數(shù)據(jù)例如風力發(fā)電機,獲取實時轉(zhuǎn)速、風速數(shù)據(jù)、發(fā)電量數(shù)據(jù)等;
系統(tǒng)監(jiān)控:IT基礎(chǔ)設(shè)施的負載和資源使用率,DevOps監(jiān)控數(shù)據(jù)、移動/Web應(yīng)用程序事件流等;
環(huán)境監(jiān)測:自然環(huán)境(如溫度、空氣、水文、風力等)的監(jiān)測,科學測量結(jié)果等;
城市管理:城市交通的監(jiān)測(車輛、人流、道路等);
自動駕駛:自動駕駛汽車持續(xù)收集所處環(huán)境中的變化數(shù)據(jù)等。
總結(jié)
在萬物互聯(lián)的時代,時序數(shù)據(jù)庫將會是一個非常具有市場和挑戰(zhàn)性的領(lǐng)域。如何幫助用戶更好的解決時序場景下遇到的難題,也是華為云服務(wù)的宗旨,幫助客戶在物聯(lián)網(wǎng)時代更快更好的適應(yīng)潮流的發(fā)展,發(fā)揮出更有力的作用和創(chuàng)造更大的價值。
GaussDB(DWS) IoT數(shù)倉針對時序場景下的各種特點和技術(shù)要求,在高性能(全并行架構(gòu)、實時分析)、高擴展(1024大集群、邏輯集群)、多模融合、安全可靠(HA、容災(zāi)、備份)、智能運維(智能調(diào)優(yōu),智能調(diào)度)等方面,不斷進行創(chuàng)新和挑戰(zhàn)中前進,為萬物互聯(lián)的美好時代,打下堅實的數(shù)據(jù)存儲基石。
【這次高斯不是數(shù)學家】有獎?wù)魑幕馃徇M行中:https://bbs.huaweicloud.com/blogs/345260
GaussDB數(shù)據(jù)庫 IoT 云端實踐 數(shù)據(jù)倉庫服務(wù) GaussDB(DWS) 數(shù)據(jù)庫
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應(yīng)法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應(yīng)法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。