大數據“復活”記
798
2025-03-31
隨著數據的持續增長,數據存儲的高性價比是云上數據倉庫的核心競爭力之一,GaussDB(DWS)目前支持特性冷熱數據管理。
隨著業務的發展和持續運行,系統產生的數據會持續增長,伴隨數據的增長對數據庫的硬件要求也在提高,為保證對數據的操作性能,就需要較高的硬件配置,比如高性能CPU、大內存、SSD硬盤等,并且在積累大量數據后需要通過擴大集群規模來保證系統的穩定運行。在系統里積累了越來越多的歷史數據,如果依然采用高配置的機器來存放那些使用頻率非常低的冷數據,以及無止境的擴容,勢必會帶來非常高的成本。
冷熱存儲定義
數據存在的價值在于其被使用的程度,即被查詢或更新的頻率。在不同的業務系統中,人們對于不同時期的數據有著不同的使用需求。如在網絡流量分析系統中,客戶會對最近一個月內安全事件和網絡訪問情況感興趣,而很少關注幾個月前的數據。對于這樣的一些場景,我們將數據按照時間可以分為兩個階段:熱數據、冷數據。
Hot(熱數據):被頻繁查詢或更新,對訪問的響應時間要求很高;
Cold(冷數據):不允許更新,偶爾被查詢,對訪問的響應時間要求不高。
用戶可以定義冷熱管理表,將符合規則的冷數據切換至OBS上進行存儲,可以按照分區自動進行冷熱數據的判斷和遷移。
冷數據自動遷移
GaussDB(DWS)列存數據寫入時,數據首先進入熱分區進行存儲,分區數據較多后,可通過手動或自動的方式,將符合冷數據規則的數據切換至OBS上進行存儲。在數據切換至OBS上后,其元數據、Desc表信息以及索引信息也在本地進行存儲,保證了讀取的性能。
冷熱切換策略
目前冷熱切換的策略名稱支持LMT和HPN,LMT指按分區的最后更新時間切換,HPN指保留熱分區的個數切換。
LMT:[day]:表示切換[day]時間前修改的熱分區數據為冷分區,將該數據遷至OBS表空間中。其中[day]為整型,范圍[0, 36500],單位為天。
在下圖中,設置day為2,即在冷熱切換時,根據分區數據的最晚修改時間,保留2日內所修改的分區為熱分區,其余數據為冷分區數據。[4-26]分區在4-30日進行了delete操作,[4-27]分區在4-29日進行了insert操作,這兩個分區的最晚修改時間為4-30和4-29,當前為4-30日,故在冷熱切換時,保留[4-26][4-27][4-29][4-30]為熱分區。
HPN: [hot_partition_num]:表示保留[hot_partition_num]個有數據的分區為熱分區。保留規則為查找出有數據的分區的最大的Sequence ID,大于Sequence ID的無數據分區為熱分區,并按這個Sequence ID從大到小保留[hot_partition_num]個分區為熱分區;分區Sequence ID小于保留的最小熱分區的Sequence ID的分區為冷分區,在冷熱切換時,需要將數據遷移至OBS表空間中。其中[hot_partition_num]為整型,范圍為[0,1600]。
在下圖中,設置hot_partition_num為3,即在冷熱切換時,保留最新的3個有數據的分區為熱分區數據,其余分區均切為冷分區。
優勢點總結:
存儲空間成本控制,隨著未來計量數據的擴增,有效降低冷數據存儲成本
計算和存儲快速獨立擴容
強事務能力(并發,一致性)
冷熱數據自動管理,用戶無感知
集群間互聯互通
想了解GuassDB(DWS)更多信息,歡迎微信搜索“GaussDB DWS”關注微信公眾號,和您分享最新最全的PB級數倉黑科技~
EI企業智能 Gauss AP 數據倉庫服務 GaussDB(DWS)
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。