大數據“復活”記
1808
2025-04-03
1. 數據庫簡要介紹
數據庫在企業中有著重要的地位和應用,華為 GaussDB 數據庫在鯤鵬生態中是主力場景之一。數據庫總體可以分為關系型數據庫和非關系型數據庫。
對于關系型數據庫,有企業生產交易的 OLTP 數據庫和企業分析的 OLAP 數據庫。針對 OLTP 應用場景華為推出云數據庫 GaussDB(for MySQL) 和 GaussDB(openGauss);OLAP 場景則推出數據倉庫服務 GaussDB(DWS)。
對于非關系型數據庫,目前 GaussDB(for Mongo) 和 GaussDB(for Cassandra)。
數據庫技術革新正在打破現有秩序,云化,分部署,多模處理是未來主要趨勢。本章重點介紹華為 GaussDB(for MySQL) 云數據庫的特性和應用場景,并介紹部分應用案例。
2. 華為 GaussDB 數據庫總覽
聯機事務處理(OLTP),存儲/查詢業務應用中活動的數據以支撐日常的業務活動;聯機分析處理(OLAP):存儲歷史數據以支撐復雜的分析操作,側重決策支持。GaussDB 數據庫升級為全場景云服務,持續服務客戶。
3. 關系型數據庫產品介紹
華為 Cloud Native 數據庫設計原則:
解耦,計算與存儲分離,主從解耦。
近數據計算下推,IO 密集型負載下推到存儲節點完成,比如:redo 處理,頁重構。
充分列用云存儲的能力,存儲層實現獨立容錯和自愈服務,共享訪問(單寫多讀)。
發揮 SSD 的優勢,避免隨機寫帶來的寫放大,減少磨損,較少延時,充分利用 SSD 的隨機讀性能。
性能瓶頸已經從計算和存儲轉向網絡,減少網絡流量,采用新的網絡技術和硬件,比如:RDMA。
3.1. GaussDB(for MySQL) 數據庫
云數據庫 GaussDB(for MySQL) 是華為自研的最新一代企業級高擴展海量存儲分布式數據庫,完全兼容 MySQL。
基于華為最新一代 DVF 存儲,采用計算存儲分離架構,128TB 的海量存儲,無需分庫分表,數據庫 0 丟失,即擁有商業數據庫的高可用和性能,又具備開源低成本效益。
兼容 MySQL,也就是對于原有 MySQL 應用無需任何改造。海量數據存儲,也就是支持互聯網業務的大數據量。
分布式高擴展,也就是自動化分庫分表或者非分庫分表,應用透明。
強一致事務,也就是支持分布式事務的強一致性。
高可用,也就是支持跨 AZ 高可用、跨 Region 容災。
高并發性能,也就是支持大并發下的高性能。
非中間式架構,也就是非 DDM 類方案或者非 DRDS 那樣。
綜上所述,客戶需要的是一款高性能、高擴展、易用、易運維、高可用、大數據的云數據庫。
3.1.1. GaussDB(for MySQL) 云數據庫概覽
主節點,處理所有的寫,寫 WAL 日志(Redo)。
只讀實例,處理只讀請求,快速升主,快速增/刪。
數據分區,數據頁以 slice 組織,分布在各個 slice 服務,Slice 冗余保存,日志被 slice 分發。
Slice 服務,單數據庫可以分配多個 Slice,訪問隔離,存儲和處理日志記錄,維護和重構數據頁,服務數據頁讀請求。
3.1.2. GaussDB(for MySQL) 的架構和特點
極致可靠,數據 0 丟失,故障閃恢復,支持跨 AZ 高可用。
多維擴展,計算節點雙向擴展,橫向擴展(支持 1 寫 15 讀橫向擴展),縱向擴展(在線彈性擴容,按需計費)。
海量存儲,單實例擴容數據達 128T,無需分庫分表,超低應用改造,業務急速上云。
創新自研,cloud-native 分布式數據庫架構,基于華為最新一代 DFV 存儲計算存儲分離,保證擴展性價比;數據庫邏輯下推存儲,最小網絡負載,極致性能。
卓越性能,性能最高提升至原生 MySQL 的 7 倍,100% 兼容 MySQL,業界領先。
尖端硬件,基于 V5 CPU+Optane DC SSD+RDMA 網絡行業領先硬件組合,數據處理即穩又快。
3.1.3. SQL Nodes
3.1.4. 存儲抽象層(SAL)
存儲抽象層(SAL)是邏輯層。
將數據存儲和 SQL 前端、事務、查詢執行等進行隔離。
由在 SQL 節點上執行的公共日志模塊和存儲節點上執行的 slice 節點組成。
SAL 將所有數據頁屬于{spaceID, pageID}劃分為 slice。
橫向擴展:隨著數據庫規模的增長,可用資源(存儲、內存)隨著 slice 的創建按比例增長。
數據本地化:數據密集型操作是存儲節點上由 slice 服務執行。
3.1.5. GaussDB(for MySQL)數據庫產品優勢
核心優勢包括,超高性能,高擴展性,高可靠性,高兼容性,超低成本。
GaussDB(for MySQL) 的超高性能得益于在內核和硬件方面的優化。內核方面不僅優化了Query Cache/Plan Cache、Innodb Lock Management以及Audit Plugin 效率,還去掉了 double write,當然活躍的社區共享的 Bug 修復也功不可沒。硬件方面做了容器化、卸載了 Hi1822 還使用了 NVMe SSD 和 RDMA。
與傳統添加只讀副本時,需要同步數據不同。GuassDB(for MySQL)由于共享存儲,只需要添加計算節點,無論多大的數據量,只需要五分鐘左右,這樣做的好處是橫向擴展更快。GuassDB(for MySQL)的存儲容量最大達 128T,它存儲采用按需付費,不需要提前規劃存儲容量,減少了用戶成本。
與傳統添加只讀副本時,需要同步數據不同。GuassDB(for MySQL)由于共享存儲,只需要添加計算幾點,無論多大的數據量,只需要五分鐘左右,這樣做以后橫向擴展更快。
消除 Binlog 復制延遲,RTO 有保證,最終達到主備切換時間更快。
采用分布式存儲后,存儲容量最大達 128T,存儲采用按需付費,不需要提前規劃存儲容量。減少用戶成本。
存儲層在不斷的異步、分布式對日志進行推進, 數據庫在 crash 后恢復更快。
專為 GaussDB(for MySQL) 引擎定制的分布式存儲系統,極大提升數據備份和恢復性能。
AppendOnly WritePlace,數據天然按照多時間點多副本存儲,快照秒級生成,支持海量快照,擁有強大的數據快照處理能力。
任意時間點快速回滾,這是基于底層存儲系統的多時間點特性,不需增量日志回放,可直接實現按照時間點回滾。
并行高速備份、恢復,備份以及恢復邏輯下沉到各存儲節點,本地訪問數據并直接與第三方存儲系統交互,高并發高性能。
通過異步數據拷貝+按需實時數據加載機制,GaussDB(for MySQL)實例可在數分鐘內達到完整功能可用,完成快速實例恢復。
采用了共享 DFV 存儲,Active-active 架構以及日志即數據架構,使得GaussDB(for MySQL)擁有更高性價比。共享 DFV 存儲,與傳統的 RDS for MySQL 相比,只有一份存儲。添加一個只讀節點時,只需添加一個計算節點,無需再額外購買存儲。如果只讀節點越多,節省的存儲成本更多。Active-active 架構,與傳統的 RDS for MySQL 相比,不再有備庫的存在,所有的只讀都是 actice 狀態,并且承擔讀流量,使得資源利用率更高。日志即數據架構,與傳統的 RDS for MySQL 相比,不再需要刷 page,所有的更新操作金記錄日志,不再需要 double write。較少了寶貴的網絡帶寬。
3.1.6. GaussDB(for MySQL) 數據庫實例規格
3.1.7. 解決行業痛點
GaussDB(for MySQL) 的極致可靠,數據0丟失,故障閃恢復的優勢,解決了金融行業不能接受數據丟失,故障恢復秒級的痛點。
GaussDB(for MySQL) 的多為擴展,海量存儲,解決了游戲行業無法預測用戶流量以及產生的數據量,業務高峰時用戶體驗受到影響,設置要挺服擴容的痛點。
GaussDB(for MySQL) 的強悍性能支撐業務拓展,解決了SaaS 應用業務龐大,吞吐量很高,開源庫無法解決,采取分庫分表等復雜化方案和企業客戶一般偏好使用商用數據庫(SQL Server、Oracle),license 費用高的痛點。
3.2. GaussDB(openGauss)數據庫
GaussDB(openGauss)是華為結合自身技術積累,推出的全新自研新一代企業級數據分布式數據庫,支持集中式&分布式兩種部署形態。在支撐傳統業務的基礎上,為企業面向 5G 時代的挑戰,提供了無線可能。
3.2.1. GaussDB(openGauss)產品優勢
高性能,支持高吞吐強一致性事務能力;
高可用,雙活和兩地三中心高可用;
集群內 HA,數據不丟失,業務秒級終端;
同城跨 AZ 容災,數據不丟失,分鐘級恢復;
兩地三中心部署;
高擴展,容量和性能按需水平擴展;
256 節點擴展能力,卓越線性比;
在線擴容;
易管理,易遷移,易監控,運維;
兼容 SQL2003 標準語法+企業擴展包;
數據復制、監控運維、開發工具;
3.2.2. openGauss 集中式版本內核全開源
內部自用孵化階段 -> 聯創產品化階段 -> openGauss 集中式版本開源
2001-2011 內部自用階段
2011-2019 產品化階段
G 行核心數據倉庫,GaussDB(DWS)華為云商用
Z 行核心業務系統替換商業數據庫
支撐公司 40+ 主力產品,在全球 70+ 運營商規模商用 3萬+ 套,服務全球 20+ 億人口
2011-2019 產品化階段
2019.5.15 GaussDB 全球發布
構筑合作伙伴生態
兼容行業主流生態,完成金融等行業對接
2020~ 開源
openGauss 集中式版本開源
3.2.3. openGauss 內核長期演進,回饋社區
3.2.4. openGauss 伙伴使能策略
openGauss 的內核完全開源,我們可以在 gitee 上直接查看完整的內核代碼,下面是代碼倉庫首頁截圖以及與合作伙伴達成的共識。
培訓:構建培訓體系、開展內核技術沙龍、組建用戶組
支持:社區支持團隊
開發者生態:
共建開發者生態
推進高校課程,出書
3.2.5. GaussDB 主力華為消費云實現智慧化業務運營
業務訴求和挑戰
華為消費者云大數據平臺,集中存儲和管理業務側數據,采用 Hadoop+MPP 數據庫混搭架構,面臨如下挑戰:
業務飛速發展,數據年增長 30% 以上
用戶智慧化體驗要求數據分析平臺提供實時分析能力
支持自主報表開發和可視化分析
解決方案
按需彈性擴容支撐業務飛速發展
SQL on HDFS 支持即席探索場景實時分析,Kafka 流數據告訴如恐懼支持實時報表生成
多租戶負載管理和近似計算等關鍵技術,實現高效報表開發和可視化分析
客戶收益
按需擴容,業務不中斷
新的數據分析模型上線后,可實時獲得分析結果,營銷精準率提高 50% 以上
典型可視化報表查詢分析相應時間從過去分鐘級降至 5s 以內,報表開發周期從過去 2 周降至 0.5 小時
3.2.6. 金融互聯網交易
適合中小銀行互聯網類交易系統,比如,移動 APP 類、網站類等,具備兼容業界主流商業數據庫生態、高性能、安全可靠等特點,推薦主備形態
優勢
安全可靠,支持 SSL 加密和 KMS 數據加密等功能,確保數據安全;支持數據庫主備架構,主機故障時,備機自動升級成主機,確保業務連續性。
超高性能,低延時的事務處理能力,典型配置下 sysbench 新能數據庫高出開源數據庫 30% 到 50%。
3.3. GaussDB(DWS)概述
數據倉庫服務,Data Warehouse Service,簡稱 GaussDB(DWS),是一種基于公有云基礎架構和平臺的在線數據處理數據庫,提供即開即用、可擴展且完全托管的分析型數據庫服務。GaussDB(DWS) 是基于華為云原生融合數據庫倉庫 GaussDB 產品的服務,兼容標準 ANSI SQL 99 和 SQL 2003,為各行業 PB 級海量大數據分析提供有競爭力的解決方案。
GaussDB(DWS)可廣泛應用于金融、車聯網、政企、電商、能源、電信等多個領域,2017~2019 已連續三年入選 Gartner 發布的數據管理解決方案魔力象限,相比傳統數據倉庫,性價比提升數倍,具備大規模擴展能力和企業級可靠性。
3.3.1. GaussDB(DWS) 產品架構
分布式、按需擴展
分布式架構,組件主備/多活高可靠設計
存算分離,按需獨立擴展
兼容標準 SQL,支持事務 ACID
兼容標準 SQL 2003
支持事務 ACID、數據強一致保證
軟硬協同,性能提升 30%
支持 X86、ARM 平臺服務器
基于鯤鵬芯片垂直優化。相比同代 X86 性能提升 30%
3.3.2. 邏輯架構
CM
集群管理模塊(Cluster Manager)
管理和監控分布式系統中各個功能單元和物理資源的運行情況,確保整個系統的穩定運行
GTM
全局事務控制器(Global Transaction Manager)
提供全局事務控制所需的消息,采用過版本并發控制 MVCC 機制
WLM
工作負載里管理器(Wordload Manager)
控制系統資源的分配,防止過量業務負載,對系統的沖擊導致業務擁塞和系統崩潰
Coordinator
整個系統的業務入口和結果返回
接收來自業務應用的訪問需求
分解任務并調度任務分片的并行執行
Data Node
執行查詢任務分片的邏輯實體
GDS Loader
并行數據加載,可配置多個
支持文本文件格式,錯誤數據自動識別
3.3.3. GaussDB(DWS)產品優勢
GaussDB(DWS) 與傳統數據倉庫相比,主要有一下特點與顯著優勢,可解決多行業超大規模數據處理與通用平臺管理問題
易使用
一站式可視化便捷管理:通過使用 GaussDB(DWS) 管理控制臺,完成應用程序與數據倉庫的連接、數據備份、數據恢復、數據倉庫資源和性能監控等運維管理工作
與大數據無縫集成:可以使用標準 SQL 查詢 HDFS、OBS 上的數據,數據無需搬遷
提供一鍵式異構數據庫遷移工具:提供配套的遷移工具,可支持 MySQL、Oracle 和 Terdata 的 SQL 腳本遷移到 GaussDB(DWS)
易擴展
按需擴展:Shared-Nothing 開放架構,可隨時根據業務情況增加節點,擴展系統的數據存儲能力和查詢分析性能
擴容后性能線性提升:容量和性能隨集群規模線性提升,線性比 0.8
擴容不中斷業務:擴容過程中支持數據增、刪、改、查,及 DDL 操作(Drop/Truncate/Alter table),表級別在線擴容技術,擴容期間業務不中斷、無感知
高性能
云化分布式架構
GaussDB(DWS) 采用全并行的 MPP 架構數據庫,業務數據被分散存儲在多個節點上,數據分析任務被推到數據所在位置就近執行,并行地完成大規模的數據處理工作,實現對數據處理的快速響應。
查詢高性能,萬億數據秒級響應
GaussDB(DWS) 后臺通過算子多線程并行執行、向量化計算引擎實現指令在寄存器并行執行,以及 LLVM 動態編譯減少查詢冗余的條件邏輯判斷,助力數據查詢性能提升
GaussDB(DWS) 支持行列混合存儲,可以同時為用戶提供更優的數據壓縮比(列存)、更好的索引性能(列存)、更好的點更新和點查詢(行存)性能
數據加載快
GaussDB(DWS) 提供了 GDS 極速并行大規模數據加載工具
列存下的數據壓縮
對于非活躍的早期數據可以通過壓縮來減少空間占用,降低采購和運維成本
能夠根據數據特征自適應選擇壓縮算法,平均壓縮比7:1。壓縮數據可直接訪問,對業務透明,極大縮短歷史數據訪問的準備時間。
高可靠
ACID:支持分布式事務 ACID(Atomicity, Consistency, Isolation, Durability),數據強一致保證
全方位 HA 設計:GaussDB(DWS) 所有的軟件進程均有主備保證,集群的協調節點(CN),數據節點(DN)等邏輯組件全部由主備保證,能夠保證在任意單點物理故障的情況下系統依然能夠保證數據可靠、一致,同時還能對外提供服務
安全:GaussDB(DWS)支持數據透明加密,同時可與數據庫安全服務(DBSS)對接,基于網絡隔離及安全組規則,保護系統和用戶隱私及數據安全。GaussDB(DWS)還支持自動數據全量、增量備份,提升數據可靠性
低成本
按需付費:GaussDB(DWS)按實際使用量和使用時長計算,您需要支付的費率很低,只需為實際消耗的資源付費
門檻低:您無需前期投入較多固定成本,可以從地規格的數據倉庫實例起步,以后隨時根據業務情況彈性伸縮所需資源,按需開支
3.4. Data Studio 工具加成
Data Studio 圖形化的集成開發環境,幫助數據庫開發人員快捷地進行數據庫開發
Data Studio 提供了各種數據庫開發調試功能:
創建和管理數據庫對象(數據庫,模式,表,視圖,索引,函數和過程等)
數據庫DML、DDL、DCL操作
創建、運行及調試 PL/SQL 過程
3.5. 應用場景-數據倉庫遷移
3.6. 應用場景-大數據融合分析
3.7. 應用場景-增強型ETL和實時BI分析
3.8. 應用場景-實時數據分析
4. NoSQL 數據庫產品介紹
4.1. NoSQL 概述
NoSQL,也稱作“Not Only SQL”,“non-relational”。泛指區別于傳統的關系型數據庫的非關系型的數據庫。
NoSQL 和關系型數據庫,兩者存在尋多顯著的不同點,比如:
NoSQL 不保證關系數據庫的 ACID 特性
NoSQL 不使用 SQL 作為查詢語言
NoSQL 數據存儲可以不需要固定的表格模式
NoSQL 也經常會避免使用 SQL 的 JOIN 操作等
NoSQL 具有易擴展、高性能等特點
4.2. 華為 NoSQL 數據庫介紹
華為自主研發的計算存儲分離架構的分布式多模 NoSQL 數據庫服務,包括 GaussDB(for Mongo)、GaussDB(for Cassandra)、GaussDB(for Redis) 和 GaussDB(for Influx)這四款主流 NoSQL 數據庫服務。
支持跨 3AZ 高可用集群,相比社區版具有分鐘級計算擴容、秒級存儲擴容、數據強一致、超低時延、高速備份恢復的優勢。
具有高性價比,適用于 IoT、氣象、互聯網、游戲等領域。
4.3. GaussDB(for Mongo)
4.3.1. GaussDB(for Mongo)產品特點
采用存算分離的方式,存儲層采用 DFV 高性能分布式存儲,計算資源與存儲資源按需獨立擴展。
支持3~12節點分布式部署,容忍n-1節點故障,3副本數據存儲,保障數據安全,做到了極致可用。
最大支持96T存儲容量的海量存儲。兼容 MongoDB 協議。
4.3.2. GaussDB(for Mongo):存儲計算分離的技術創新
存儲計算分離包括三個方面分別是,存儲計算分別按需擴展,降低成本,基于共享存儲,Rebalance 不遷移數據,3AZ容災。
采用復制集卸載到分布式存儲的技術后,減少了存儲副本的數量,讓所有 ShardServer 均可處理業務,分布式存儲也是基于分片復制,能夠更好的聚合IO性能和故障重構性能。
采用了 RocksDB 存儲引擎技術,他是基于 LSMTree,相比 WT,寫性能更好,使用本地SSD讀Cache,也優化讀性能。
采用基于快照的物理備份的技術,避免了邏輯備份dump數據,一次性能更好,并且可以具有明確的備份時間點。
實現了GaussDB(for Mongo) 的 On going ,不僅在基礎設施、線程池、存儲RDMS上做了新能優化,還對Auto Scaling 做優化使其可以自動根據業務負載擴縮容集群規模,降低用戶50%以上成本,也做到了瞬時恢復、增量備份、表級備份、任意時間點恢復。
4.3.3. GaussDB(for Mongo)客戶案例
GaussDB(for Mongo) 的高性價比,能夠做到同等成本下3倍讀寫性能提升。這個性能也很好的支撐了江淮汽車的車聯網場景,完美支持每秒近百萬并發查詢,響應及時,業務能夠持續穩定運行,也做到了增效降本,同等并發相比基于 ECS 自建或者開源服務化的方案同等成本下提升三倍性能。
4.4. GaussDB(for Cassandra)
GaussDB(for Cassandra)是一款基于華為自主研發的計算存儲分離架構的分布式云數據庫服務。是一個強一致性的系統,在華為云高性能、高可用、高可靠、高安全、可彈性伸縮的基礎上,提供了一鍵部署、備份恢復、監控報警等服務能力。高度兼容開源Cassandra接口,并提供高讀寫性能,具有高性價比,適用于IoT、氣象、互聯網、游戲等領域。
4.4.1. GaussDB(for Cassandra)產品優勢
集群穩定無Full GC 問題
計算存儲分離分鐘級節點擴容秒級存儲擴容
Active-Active 分布式架構N-1個節點故障容忍
高性能性能數倍于社區版
海量數據單套實例最大100TB數據
高可靠分鐘級備份恢復數據強一致性
4.4.2. GaussDB(for Cassandra)產品特性
彈性擴展
超強讀寫
高可用&故障容忍
強一致性
CQL 語言
無Full GC問題
計算存儲分離
4.4.3. 客戶案例-工業制造&氣象
大規模集群部署:使用于工業制造和氣象業海量數據存儲的場景
高可用易擴展:基于一致性哈希的安全P2P架構,保障業務高可用、節點易擴展
實時高并發寫入:7*24小時多傳感器終端數據實時寫入
分鐘級擴容:應對作業/項目高峰
5. 總結
本次主要介紹了數據庫的特性,華為關系型數據庫GaussDB(for MySQL)數據庫、GaussDB(openGaudd)與華為GaussDB(DWS)數據庫,了解 NoSQL 數據庫的產品特性和業務價值,包括 GaussDB(for Mongo)和GaussDB(for Cassandra)。GaussDB 家族將服務會越來越來的用戶,會有越來越多的用戶收益于GaussDB 家族。
本文整理自華為云社區【內容共創系列】活動。
查看活動詳情:https://bbs.huaweicloud.com/blogs/314887
相關任務詳情:華為數據庫產品 GaussDB 介紹
云數據庫 GaussDB(for Cassandra) 云數據庫 GaussDB(for Mongo) 云數據庫 GaussDB(for MySQL) 數據倉庫服務 GaussDB(DWS) 數據庫
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。