亚洲熟妇久久精品,日韩亚洲AV无码一区二区不卡,国产偷v国产偷v亚洲高清

PB級數據倉庫性能調優

網友投稿 790 2025-04-02

一、GaussDB分布式架構

所謂集群是將多臺物理服務器組建成一個邏輯平臺，對外展現一個集群平臺的形式。

所謂分布式架構是將數據分而治之。以邏輯進行劃分，將數據存放在不同的物理節點。

CN:協調節點負責接收來自應用的訪問請求，并向客戶端返回執行結果。Coordinator負責分解任務，并調度任務分片在DataNode上并行執行。

CN：SQL語句的解析和任務規劃，把具體的任務下發給DN結構

GTM：生成和維護全局事務ID、事務快照、時間戳等需要全局唯一的信息。

DN:數據節點，負責存儲業務數據(支持行存、列存、混合存儲)、執行數據查詢任務以及向Coordinator返回執行結果。【不單存儲還負責計算】

一臺物理機【2-4個DN】

Coorinator做任務的規劃分發，規劃完之后，把具體的任務拋給計算節點。

Crew3 Worker1和Crew3 Worker2就是任務樹中的葉節點就是數據的掃描任務，接受下級任務的數據輸入，向上級任務輸出數據。

Crew2 Worker1和Crew2 Worker2中間的節點就是各種數據運算任務,如Hash計算，Join操作，聚集操作和排序操作。接受下級任務的數據輸入，向上級任務輸出數據。

在非阻塞的任務流程中，上級任務不需要等待下級完成全部任務返回整體結果級才啟動，下級任務生成一條結果記錄就可以傳遞給上級。

阻塞情況下，上級任務需要等待下級任務完成所有數據處理工作。

二、調優原則與流程

說白了，就是少花錢，多辦事，資源利用最大化，比如我們在點查詢場景的時候盡量使用索引掃描。如果實在不能索引掃描，我們會讀取每一條元組和點查詢條件進行匹配。

在沒有資源瓶頸的情況下,盡量充分利用資源，比如在數據排序的時候，盡量使數據不下盤，在內存進行排序。因為在磁盤中讀寫的速度，肯定是不如內存的。

靜態調優一般架構師會根據業務特征確定集群部署方案，表定義，行列存，復制/哈希分布等設計的過程。方案和表一般確定下來，后期如果要改動，代價很大。

可能作為有經驗的人來說,收集統計信息，sql改寫，數據庫參數配置，plan hint等手段基本都做過，它屬于執行態調優。但是沒有經驗的人可能只知道理論，不知道如何操作，久而久之，理論都忘記了。

防止單點(單個DN)數據多，導致整個集群有效容量下降。

防止單點掃描，壓力過大。

通過，分區，索引，局部聚簇實現。（后面會有實踐操作）

選擇關聯列，做為分布列，比如用id關聯，將id做為分布列，這樣查詢的時候，避免跨計算接點的數據流動，減少網絡壓力。

局部聚簇是列存儲下獨有的手段，通過把表數據按照指定列排序后存儲，配合稀疏索引，可以實現表數據的快速掃描。【華為獨有的科技】

三、伴隨場景介紹

發現一個犯罪嫌疑人，還有他的車輛，我怎么通過數據挖掘來找到犯罪團伙的場景。

四、調優實踐

Plan Information:在sql語句執行的時候，perf語句會包含非常多的執行動作,也會消耗很多的資源，我們通過perf把這些信息都記錄下來。常用的是前2個。Plan 執行過程中每個算子的執行概要信息。比如:scan,join等。另外一個是算子，with信息。

Predicate Information: 算子信息，每條數據掃描，伴隨的filter條件，join伴隨的關聯字段。

會對數據類似于分區，然后進行局部排序

并通過元數據信息記錄這個區間的最大值和最小值。

CUNone:0我忽略了多少個數據段

CUSome:6我需要掃描多少個數據段

Scan的性能提升的兩個主要策略

1)減少實際IO

a)索引

b)pck

c)分區

2)Scan壓力均衡

a)調整分布列

PB級數據倉庫性能調優

數據批量入庫的時候，按字段做一些排序。排完序之后，再入庫。

導入表數據和統計信息。

Time:10.422ms

不包含PCK大概花了23.902ms

pck建立的場景和索引的建立場景是有點像的。

nestloop的在特定場景下，性能會非常好，比如小表join大表的時候，

hashjoin在大多數場景下，性能最優。大表join大表

hash join一般期望數據量小的表做內表,

hash join:137ms

merge join:775ms

nestloop:1137.9ms

問題總結:

1.truncate和delete快

答：?truncate 整個文件都不讀? delete標記元組刪除

2.PCK對入庫的數據做局部排序影響較小。

3.MPP數據庫性能瓶頸在哪些?

答:數據庫性能瓶頸在具體數據處理業務場景，分布式架構場景下，業務CPU吃滿了，瓶頸在CPU，內存吃滿了，瓶頸在內存。

采集于華云數據倉庫GaussDB DWS_數據倉庫性能調優-version 5.0-華哥

數據倉庫服務 GaussDB(DWS) 應用性能調優

【云小課】EI第29課大數據時代的隱私利器-GaussDB(DWS)數據脫敏

790 2025-04-02

PB級數據倉庫性能調優

大數據“復活”記

【云小課】EI第29課大數據時代的隱私利器-GaussDB(DWS)數據脫敏

Hive概述

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接