【云享讀書會-數據倉庫工具箱】DAY05 DWS維度建模實戰

網友投稿 850 2025-03-31

內容概要：

1）shared-nothing分布式架構

2）數據分片（sharding）

3）行存和列存

4）表分區

5）查詢實例講解

一、shared-nothing架構

1）集群中每個節點都完全擁有自己獨立的CPU/內存/存儲，不存在共享資源

2）各節點處理自己本地的數據，處理結果可以向上匯總或者通過通信協議在節點間流轉

3）節點是相互獨立的，擴展能力強。整個集群擁有強大的并行處理能力。

二、數據的分布式存儲和SQL執行

數據分片存儲

1）每個表的記錄都會分布在各個處理單元上

2）每個處理單元上都會有各個表的記錄

3）理想狀態下，記錄會均勻分布到各個處理單元上（有數據分布方式決定）

三、DWS中的數據分布

1）復制

*適合與記錄集較小的表

*表中數據在各節點上完全復制，各DN都擁有全量數據

2）Hash分布

*適合于數據量較大的表

*在DN數相同的情況下對于相同的輸入，hash結果保持一致

*數據平均分布的情況下，并行計算性能最好

四、DWS的DDL

分布列/分布字段

分布式數據庫的數據表是分散在所有數據節點上的，所以創建表的時候需要指定分布列

五、分布列選擇原則：

1）保證數據均勻分布

2）盡量選擇等值查詢字段

3）盡量選擇關聯聚合字段

六、表的存儲方式

1）行存儲表（適合短事務TP場景）

2）列存儲表（適合分析AP場景）

七、表分區

分區表是將達標的數據分成許多小的數據子集，稱為分區。

范圍分區表

【云享讀書會-數據倉庫工具箱】DAY05 DWS維度建模實戰

分區表的收益：

1）改善查詢性能

2）增強可用性

3）方便維護

4）均衡I/O

八、分區剪枝的原理

對分區對象的查詢可以僅搜索自己關心的分區，提高檢索效率

倉庫數據倉庫服務 GaussDB(DWS)

標簽：數據倉庫

大數據“復活”記

850 2025-03-31

【云小課】EI第29課大數據時代的隱私利器-GaussDB(DWS)數據脫敏

850 2025-03-31

Hive概述

850 2025-03-31

【云享讀書會-數據倉庫工具箱】DAY05 DWS維度建模實戰

大數據“復活”記

【云小課】EI第29課大數據時代的隱私利器-GaussDB(DWS)數據脫敏

Hive概述

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

Excel項目進度表模板，簡化您的項目進度管理">Excel項目進度表模板，簡化您的項目進度管理

定制家居數字化管理模式：提升品質、智能化和個性化的未

友情鏈接