大數據“復活”記
814
2025-03-31
1.3.3 數據存儲與查詢
在數據接入大數據平臺之后,就需要考慮如何存儲這些海量數據的問題了。根據業(yè)務場景和應用類型的不同我們會有不同的存儲需求。
1.?關系型數據模型
試想一下數據倉庫的場景。數據倉庫的定位主要是應用于聯機分析處理(OLAP),
它不需要支持事務性的操作,只用專注于分析場景。它需要能夠提供秒級到分鐘級的海量數據查詢能力。
在這種基于大數據技術的數據倉庫背后,就是由一套支持關系型數據模型的分布式存儲和查詢引擎支撐的。為了支撐關系型數據模型,需要在分布式文件系統之上附加元數據管理的能力和SQL查詢引擎的支持。又因為對查詢的時效性要求很高并且數據量特別巨大,所以還需要使用高效的壓縮與存儲結構來進行數據的存儲。
2.?非關系型數據模型
試想一下這樣的場景,在一些實時數據計算的場景中,會有大量數據通過消息管道進入大數據平臺,這些數據在實時計算的同時也需要存儲下來;或是在分布式計算的場景中,各個服務器進程之間需要一個第三方擴展存儲來共享一些中間計算結果。
這些場景通常都會采用非關系數據模型進行存儲,并且要求毫秒到秒級的查詢能力。所以需要存儲服務在分布式文件系統之上建立索引結構,同時充分利用內存的能力進行性能提速。
3.?文檔數據模型
Google的搜索服務改變了人們使用互聯網的方式,它背后的核心武器便是搜索引擎。同樣的,企業(yè)級搜索引擎的出現也改變了企業(yè)內部查找數據的方式。這些海量的數據會以文檔數據模型的方式進行存儲,并且要求毫秒級的查詢能力。
由此我們可以得知大數據平臺需要能夠提供不同的存儲模型和查詢手段以滿足不同的業(yè)務場景和需求。
大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。