大數據“復活”記
850
2025-03-31
內容概要:
1)shared-nothing分布式架構
2)數據分片(sharding)
3)行存和列存
4)表分區
5)查詢實例講解
一、shared-nothing架構
1)集群中每個節點都完全擁有自己獨立的CPU/內存/存儲,不存在共享資源
2)各節點處理自己本地的數據,處理結果可以向上匯總或者通過通信協議在節點間流轉
3)節點是相互獨立的,擴展能力強。整個集群擁有強大的并行處理能力。
二、數據的分布式存儲和SQL執行
數據分片存儲
1)每個表的記錄都會分布在各個處理單元上
2)每個處理單元上都會有各個表的記錄
3)理想狀態下,記錄會均勻分布到各個處理單元上(有數據分布方式決定)
三、DWS中的數據分布
1)復制
*適合與記錄集較小的表
*表中數據在各節點上完全復制,各DN都擁有全量數據
2)Hash分布
*適合于數據量較大的表
*在DN數相同的情況下對于相同的輸入,hash結果保持一致
*數據平均分布的情況下,并行計算性能最好
四、DWS的DDL
分布列/分布字段
分布式數據庫的數據表是分散在所有數據節點上的,所以創建表的時候需要指定分布列
五、分布列選擇原則:
1)保證數據均勻分布
2)盡量選擇等值查詢字段
3)盡量選擇關聯聚合字段
六、表的存儲方式
1)行存儲表(適合短事務TP場景)
2)列存儲表(適合分析AP場景)
七、表分區
分區表是將達標的數據分成許多小的數據子集,稱為分區。
范圍分區表
分區表的收益:
1)改善查詢性能
2)增強可用性
3)方便維護
4)均衡I/O
八、分區剪枝的原理
對分區對象的查詢可以僅搜索自己關心的分區,提高檢索效率
倉庫 數據倉庫服務 GaussDB(DWS)
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。