大數(shù)據(jù)“復(fù)活”記
734
2025-04-02
1 數(shù)據(jù)分析平臺的挑戰(zhàn)
在智能數(shù)據(jù)時代多樣性應(yīng)用、海量數(shù)據(jù)、實(shí)時處理對數(shù)據(jù)平臺提出挑戰(zhàn)
數(shù)據(jù)應(yīng)用快速發(fā)展,現(xiàn)階段主要矛盾是數(shù)據(jù)的供需矛盾
數(shù)據(jù)平臺建設(shè)重心轉(zhuǎn)向支撐業(yè)務(wù)應(yīng)用上線,現(xiàn)階段的主要矛盾是
數(shù)據(jù)平臺無法滿足業(yè)務(wù)部門日益增長的==數(shù)據(jù)消費(fèi)==需求的無法處理多樣化==數(shù)據(jù)供給==之間的矛盾
1.1 當(dāng)前典型的數(shù)據(jù)架構(gòu)
1.2主要痛點(diǎn)
七國八制,組件多,開發(fā)方式不統(tǒng)一,數(shù)據(jù)格式不統(tǒng)一,需要反復(fù)轉(zhuǎn)換;
組件間數(shù)據(jù)流轉(zhuǎn)開發(fā)復(fù)雜,流轉(zhuǎn)效率不高;跨集群,跨組件數(shù)據(jù)一致性差;
依賴于Oracle提供實(shí)時數(shù)據(jù)接入和交互式查詢,分析的擴(kuò)展性差;
1.3 GaussDB(DWS)整體解決方案
1.3.1 解決思路:
—套架構(gòu)支撐實(shí)時、此量和交互式查詢
與Kafka/Flink等組件聯(lián)合提供批比流合—能力
與Hadoop、OBS聯(lián)合提供歷史數(shù)據(jù)存儲、歸檔、數(shù)鋼交換和查詢能力
1.3.2周邊配套的云服務(wù):
數(shù)據(jù)接入:
Kafka:做流式弋規(guī)接入;
DRS:從業(yè)務(wù)數(shù)據(jù)庫中實(shí)時同步增量數(shù)據(jù);
CDM:從業(yè)務(wù)數(shù)據(jù)庫或者文本數(shù)據(jù)同步批量數(shù)據(jù)。
數(shù)據(jù)存儲:
DWS本地存儲:數(shù)據(jù)有存儲在DWS的數(shù)據(jù)盤;
HDFS:與大數(shù)MRS配合方案時,大數(shù)據(jù)加口工后的數(shù)據(jù)可以使用DWS外表方式讀取;
OBS:大量數(shù)熱導(dǎo)入到DWS時,可以先放到OBS上,再以DWS外表方式寫入到DWS;或者是歷史數(shù)據(jù)可以歸檔到OBS中,使用是可以以DWS外表方式讀取。
數(shù)據(jù)治理:
DAYU:做數(shù)據(jù)加工、數(shù)據(jù)治理、業(yè)務(wù)調(diào)度。
數(shù)據(jù)展示:
BI工具:專業(yè)BI工具可以使用嚴(yán)選中的永洪、帆軟。
2GaussDB(DWS)如何支撐實(shí)時、批量和交互式查詢的
2.1 GaussDB(DWS)產(chǎn)品策略:一套架構(gòu)支撐實(shí)時、批量和交互式查詢
產(chǎn)品目標(biāo):圍繞==企業(yè)級內(nèi)核==(高性能,高擴(kuò)展,高可用,融合分析,智能運(yùn)維)、==實(shí)時分析==、==云原生==三大方向構(gòu)筑業(yè)界第一數(shù)據(jù)倉庫關(guān)鍵競爭力:
架構(gòu)歸一:一套架構(gòu)支撐標(biāo)準(zhǔn)數(shù)倉、實(shí)時數(shù)倉、云數(shù)倉,支持一站式實(shí)時、批量和交互式查詢
業(yè)界首創(chuàng):實(shí)時數(shù)倉、2048節(jié)點(diǎn)大集群、邏輯集群(流程IT)
持續(xù)領(lǐng)先:大規(guī)模集群(G行,480節(jié)點(diǎn)上線)、性能領(lǐng)先,非對稱容災(zāi)(RTO<30min)、在線擴(kuò)容、Cloud-Native運(yùn)維
2.2 GaussDB(DWS)實(shí)時處理技術(shù):實(shí)時數(shù)據(jù)接入+實(shí)時分析
方案價值
實(shí)時數(shù)據(jù)接入:支持lot數(shù)據(jù)接入和交易數(shù)據(jù)實(shí)時接入,lot時序數(shù)據(jù)接入10w/s/節(jié)點(diǎn),流數(shù)據(jù)接入60w/s/節(jié)點(diǎn);
數(shù)據(jù)更新秒級同步:交易數(shù)據(jù)實(shí)時接入,支持增刪改數(shù)據(jù)
實(shí)時數(shù)據(jù)和維度數(shù)據(jù)、歷史數(shù)據(jù)關(guān)聯(lián)分析:實(shí)時數(shù)倉可以存儲維度數(shù)據(jù)、歷史數(shù)據(jù),并支持關(guān)聯(lián)分析,負(fù)載隔離。
關(guān)鍵技術(shù)
數(shù)據(jù)復(fù)制:交易數(shù)據(jù)實(shí)時接入,支持增刪改數(shù)據(jù)
流引擎:流數(shù)據(jù)接入、持續(xù)計(jì)算
時序引擎:時序數(shù)據(jù)接入、實(shí)時合并
Delta引擎:微批數(shù)據(jù)接入、實(shí)時合并
應(yīng)用舉例:
某國有保險實(shí)時系統(tǒng):40+節(jié)點(diǎn),~500TB數(shù)據(jù),3W+表分鐘級實(shí)時接入,整體替換掉100+單機(jī)SQL server庫。
2.3 GaussDB(DWS)批量處理技術(shù):高性能+大集群
應(yīng)用舉例:
某國有大行EDW系統(tǒng):480節(jié)點(diǎn),3PB+數(shù)據(jù),3W+批處理作業(yè)
2.4 GaussDB(DWS)交互式查詢技術(shù)
核心問題:如何處理高并發(fā)點(diǎn)查詢;如何如何處理Adhoc復(fù)雜SQL;如何防止?fàn)€SQL搞跨整集群
分布式查詢優(yōu)化核心技術(shù)
分布式查詢重寫: 30+查詢重寫技術(shù),10+項(xiàng)分布式查詢重寫,查詢重寫相關(guān)專利4篇
分布式查詢優(yōu)化:基于Poisson的估算模型、全局/單點(diǎn)cOst估算模型
—健式SQL調(diào)優(yōu):簡易SQL調(diào)優(yōu)
異常資源實(shí)時監(jiān)控核心技術(shù)
運(yùn)行態(tài)實(shí)時視圖:實(shí)時監(jiān)控運(yùn)行狀態(tài)和資源消耗
基于規(guī)則的異常資源實(shí)時監(jiān)控
應(yīng)用舉例
某國有大行分析師平臺:480節(jié)點(diǎn),3PB數(shù)據(jù),每天支撐10w+筆查詢,1w+分析師。
3 實(shí)時、批量和交互式查詢一站式分析的開發(fā)實(shí)踐及案例
3.1 GaussDB(DWS)一站式技術(shù)負(fù)載感知的優(yōu)化執(zhí)行技術(shù),實(shí)現(xiàn)多種負(fù)載混合管理
多種技術(shù)提升混合負(fù)載并發(fā)能力
1.優(yōu)化器動態(tài)感知系統(tǒng)負(fù)載,根據(jù)資源狀況生
成最優(yōu)執(zhí)行計(jì)劃。
CN隊(duì)列控制全局并發(fā),資源池隊(duì)列控制局部
并發(fā),利用資源池優(yōu)先級管理混合負(fù)載復(fù)雜場景。
分時復(fù)用機(jī)制,限額配額分酉配機(jī)制保證資源
的隔離的基礎(chǔ)上實(shí)現(xiàn)充分利用。
快慢車道實(shí)現(xiàn)復(fù)雜查詢和簡單查詢的混合運(yùn)
行。
資源限額保證資源絕對隔離,資源配額保證
系統(tǒng)充分利用。
3.2 GaussDB(DWS)—站式技術(shù)邏輯集群,支持多業(yè)務(wù)統(tǒng)一管理和隔離,實(shí)現(xiàn)縱向擴(kuò)展
在企業(yè)傳統(tǒng)的數(shù)據(jù)分析系統(tǒng)中,各系統(tǒng)煙囪式建設(shè)、資源無
法池化共享,各個業(yè)務(wù)分散部署,缺乏統(tǒng)—管理。
將不同用戶的數(shù)據(jù)存放在不同的物理節(jié)點(diǎn)組(邏輯集群),元數(shù)據(jù)統(tǒng)―管理,實(shí)現(xiàn)數(shù)據(jù)共桌的同時實(shí)現(xiàn)資源的絕對隔離。
3.3 GaussDB(DWS)—站式技術(shù)融合分析,互聯(lián)互通,支持直接讀寫HDFS/OBS數(shù)據(jù)
多種互聯(lián)互通:
通過Extension Connector和Oracle、Hive等數(shù)據(jù)源互聯(lián)互通
通過FDW外表機(jī)制實(shí)現(xiàn)和HDFS、oBS數(shù)據(jù)讀寫,支持HDFS外表、OBS外表、MPP外表
HDFS外表支持ORC/txt/csv/Parquet文件格式,OBS外表支持ORC/txt/csv文件格式
應(yīng)用透明,兼容標(biāo)準(zhǔn)SQL:
標(biāo)準(zhǔn)ANSI SQL2003
標(biāo)準(zhǔn)開發(fā)接口JDBC、ODBC
支持SQL2003標(biāo)準(zhǔn)訪問HDFS、OBS
3.4 場景一:分時復(fù)用資源,實(shí)現(xiàn)實(shí)時、交互式查詢一站式
資源池隊(duì)列實(shí)現(xiàn)資源隔離與負(fù)載管理,解決業(yè)務(wù)核心痛點(diǎn):
業(yè)務(wù)高峰期,批量作業(yè)一啟動,實(shí)時查詢大量排隊(duì)等待,影響使用
某業(yè)務(wù)部門上線爛SQL,吃光所有系統(tǒng)資源,影響其他部門正常使用
多ISV合作,互相搶占集群資源,影響作業(yè)性能指標(biāo)
利用資源池分時計(jì)劃,合理規(guī)劃不同類型作業(yè)執(zhí)行時間,充分使用系統(tǒng)資源
3.5 場景二:多邏輯集群實(shí)現(xiàn)實(shí)時、批量、交互式查詢的庫內(nèi)數(shù)據(jù)流轉(zhuǎn)
系統(tǒng)特點(diǎn)
在一套集群內(nèi),規(guī)劃不同的節(jié)點(diǎn),分別承載實(shí)時數(shù)據(jù)接
入,批量處理以及高并發(fā)查詢
T+0數(shù)據(jù)接入實(shí)時集群,提供實(shí)時分析和微批運(yùn)算
T+0數(shù)據(jù)根據(jù)時間戳,采用Insert into … Select的方式定時導(dǎo)入到批量集群
批量計(jì)算后的分析匯總數(shù)據(jù)根據(jù)時間戳,采用Insert into … Select的方式定時導(dǎo)入到交互式查詢邏輯集群
優(yōu)缺點(diǎn)分析
系統(tǒng)資源完全隔離,各業(yè)務(wù)可無干擾并行運(yùn)行
數(shù)據(jù)同步可使用SQL,方便高效,不需要額外數(shù)據(jù)存儲空間
數(shù)據(jù)同步需拷貝數(shù)據(jù)
3.6 場景三:多集群互聯(lián)互通,分別承載實(shí)時、批量、交互式查詢,實(shí)現(xiàn)集群間數(shù)據(jù)流轉(zhuǎn)
系統(tǒng)特點(diǎn)
規(guī)劃不同的物理集群,分別承載實(shí)時數(shù)據(jù)接入,批量處理以及高并發(fā)查詢
T+0數(shù)據(jù)接入實(shí)時集群,提供實(shí)時分析和微批運(yùn)算
實(shí)時集群T+0數(shù)據(jù)根據(jù)時間戳,采用OBS外表導(dǎo)出的方式導(dǎo)出
到OBS,批量集群采用OBS外表導(dǎo)入的方式導(dǎo)入到批量集群
批量計(jì)算后的分析匯總數(shù)據(jù)根據(jù)時間戳,采用OBS外表導(dǎo)出的方式導(dǎo)出到OBS,查詢集群采用OBS外表導(dǎo)入的方式導(dǎo)入交互式查詢邏輯集群
優(yōu)缺點(diǎn)分析
系統(tǒng)資源完全隔離,各業(yè)務(wù)可無干擾并行運(yùn)行
數(shù)據(jù)同步可使用SQL,方便高效
需要設(shè)計(jì)外表,并有額外空間存儲同步數(shù)據(jù)
3.7 典型案例(RY)︰批量與查詢業(yè)務(wù)一站式
按照數(shù)倉設(shè)計(jì)模型,將業(yè)務(wù)數(shù)據(jù)加工鏈路映射至讀寫分離的邏輯集群
業(yè)務(wù)領(lǐng)域需要加工,清洗,匯總的貼源數(shù)據(jù)、明細(xì)
數(shù)據(jù),從數(shù)據(jù)湖直接抽取入庫批量邏輯集群
公共維數(shù)據(jù),從數(shù)據(jù)湖抽取到批量和查詢邏輯集群
在批量集群中進(jìn)行指標(biāo)計(jì)算、匯總計(jì)算,加工成各
類指標(biāo)維數(shù)據(jù)、集巿數(shù)據(jù)
面向業(yè)務(wù)對象萃取標(biāo)簽(事實(shí)規(guī)則類、統(tǒng)計(jì)類、算
法類)匯總數(shù)據(jù),通過ETL導(dǎo)入到查詢邏輯集群。
分析師、業(yè)務(wù)人員從查詢邏輯集群中進(jìn)行聯(lián)機(jī)分析
3.8 典型案例(SD城商)︰一套系統(tǒng)分時實(shí)現(xiàn)批量和交互式查詢
系統(tǒng)特點(diǎn):混合負(fù)載
批量作業(yè)和實(shí)時查詢,集群規(guī)模:12節(jié)點(diǎn) 4*12DN,5CN 數(shù)據(jù)量12OT+
**批量系統(tǒng) **完成數(shù)據(jù)歸檔,數(shù)據(jù)加工,五大會計(jì)報(bào)表作業(yè),共17W/天
數(shù)據(jù)歸檔,xx家商業(yè)銀行,xxx家村鎮(zhèn)銀行的曰增量數(shù)據(jù)
批量入庫,每日23:00 – 1:00;
數(shù)據(jù)加工,核心作業(yè)7W個2h內(nèi)加工完成。
實(shí)時系統(tǒng) 手機(jī)銀行終端7×24小時實(shí)時查詢業(yè)務(wù)
個人用戶量1xxxW+,企業(yè)用戶量xxW+,交易量xxxW+
筆/天,并行日間批量作業(yè)10W+個;
實(shí)時查詢在批量高峰期3s內(nèi)響應(yīng),跑批和實(shí)時作業(yè)互不
影響。
4一站式分析的未來規(guī)劃
4.1 GaussDB(DWS)云數(shù)倉,基于云存儲實(shí)現(xiàn)冷熱數(shù)據(jù),跨集群數(shù)據(jù)共享,數(shù)據(jù)同步
基于本地盤進(jìn)行性能加速,OBS作為冷數(shù)據(jù)區(qū)、共享交換區(qū),備份數(shù)據(jù)區(qū),實(shí)現(xiàn)一體化的數(shù)據(jù)倉庫
4.2 GaussDB(DWS)云數(shù)倉,基于云存儲實(shí)現(xiàn)跨集群數(shù)據(jù)共享
關(guān)鍵技術(shù):
文件級多版本,實(shí)現(xiàn)多集群讀寫不沖突基于云存儲實(shí)現(xiàn)一份
數(shù)據(jù)跨集群共享訪問,并保證數(shù)據(jù)一致性
4.3 GaussDB(DWS)云數(shù)倉,基于云存儲實(shí)現(xiàn)跨集群數(shù)據(jù)同步
關(guān)鍵技術(shù)
單SQL實(shí)現(xiàn)跨集群數(shù)據(jù)同步,透明訪問
流水線文件讀寫,異步傳輸,性能高;
5 結(jié)語
華為云數(shù)倉GaussDB(DWS)針對數(shù)據(jù)分析中,從生產(chǎn)到消費(fèi)各個環(huán)節(jié)的痛點(diǎn)需求和技術(shù)挑戰(zhàn),持續(xù)投入,不斷突破關(guān)鍵技術(shù),打造業(yè)界首選企業(yè)級數(shù)據(jù)倉庫。作為一款華為云對標(biāo)世界一流企業(yè)級數(shù)據(jù)庫的產(chǎn)品,當(dāng)前已經(jīng)完成從0到1的孵化,正在不斷迭代優(yōu)化,走向成熟,并在企業(yè)級數(shù)據(jù)庫構(gòu)建方面取得了一定的話語權(quán)。通過改變當(dāng)前典型數(shù)據(jù)庫架構(gòu),兼容接入其它類型數(shù)據(jù)庫,聯(lián)合其它云服務(wù)商打造實(shí)時,批量和交付式查詢一站式開發(fā)平臺
SQL 數(shù)據(jù)倉庫服務(wù) GaussDB(DWS)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。