Docker 的優點
896
2025-03-31
華為開發者大會2021(Cloud)于2021年4月24日-26日在深圳成功舉行。本屆大會以#每一個開發者都了不起#為主題,為眾多開發者帶來一場ICT方面的技術盛宴。
大會期間,由華為技術專家天團打造的《名師大講堂》系列專題演講,圍繞云原生、大數據、人工智能等話題,探討技術創新帶來的價值,分享創新實踐。其中,華為云FusionInsight MRS云原生數據湖HetuEngine架構師武文博,分享了“跨湖跨倉場景下如何實現海量數據分鐘級分析”主題。
華為云FusionInsight MRS云原生數據湖HetuEngine架構師武文博演講
傳統大數據平臺融合分析存在數據墻、數據難打通、數據協同慢三大問題
隨著大數據技術的應用和發展,數據種類越來越多,分布越來越廣,查詢場景也越來越復雜,尤其在新興業務中,需要在一個平臺上使用離線分析、實時分析、圖分析、文本分析、交互式查詢等多種引擎,多元異構的數據融合才能盤活數據,通過數據挖掘開發數據價值,發揮數據作為生產要素的作用。而傳統大數據平臺在應對數據融合分析時逐漸顯露疲態,存在如下問題:
多數據源間存在數據墻:Hive、HBase、MPPDB、Oracle….數據組件眾多,組件間形成“數據墻”;為了應對不同場景的需求,數據重復存儲到多個數據組件:Hive(歷史數據),HBase(原始數據),MPPDB(專題數據),管理復雜,耗費存儲空間;
多中心數據難以打通:各類分析應用只能基于本地數據;用外中心數據做碰撞分析需要先搬遷到本地,操作復雜,效率低;異地數據加工需要在當地部署和維護加工平臺,架構復雜;
多數據中心難以形成合力:數據集中在主中心,造成主中心負載畸高,分中心卻空閑嚴重;緊急任務需要迅速處理,卻因為分中心數據還未同步,無法分析;多數據中心和多集群的計算和擴展能力遠遠強于單個中心,但由于跨數據中心訪問技術基本處于空白狀態,業務只能依靠單中心支撐。
簡化用數,HetuEngine統一接口,跨湖跨倉跨云協同分析從數天降至分鐘級
為了讓數據使用更簡單,跨湖協同更容易,解決上述三大問題,華為推出了“HetuEngine”,于2019年11月發布,2020年6月正式開源(開源名稱openLooKeng)。HetuEngine是統一高效的數據虛擬化引擎,與大數據生態無縫融合,實現海量數據秒級查詢;業界首創多源異構協同,實現一站式SQL融合分析。
HetuEngine具備如下特性:
高性能交互式查詢:傳統大數據通過Hive引擎構建即席查詢任務,查詢時間長, HetuEngine通過啟發式索引和執行計劃Cache,實現秒級查詢響應;
跨湖跨倉跨云融合:傳統數據分析需先統一數據格式,HetuEngine可實現不同數據格式間的join,減少數據搬遷,較傳統方案提效30%;傳統DC分析要建手工擺渡數據,HetuEngine可通過DC Connector進行連接,數據全局可視,協同耗時從數天縮短至分鐘級;
多引擎融合:傳統大數據在進行多引擎組件開發時,需涉及多組件定制開發,HetuEngine可統一SQL接口訪問大數據,降低用數門檻,開發提效2-10倍。
目前,華為云FusionInsight MRS云原生數據湖為政企提供湖倉一體的解決方案,一個架構可構建三種數據湖:離線數據湖、實時數據湖、邏輯數據湖。其中邏輯數據湖通過HetuEngine提供跨湖、跨倉、跨云統一訪問,減少數據搬遷,數據高效流動,全域數據分鐘級協同分析,業務上線效率提升10倍,由周級縮短至天級。
HetuEngine已在各行各業大規模使用,下面一起來看HetuEngine在金融領域的典型場景實踐。
工商銀行基于HetuEngine實現即時BI,加速金融數據湖的靈活數據探索
工行金融數據湖承載總行及分行全量原始數據,供全行數據分析師進行數據探索分析。目前日查詢量5000條,查詢數據平均10億行,最大可達百億行,伴隨數字化轉型進入深水區,多樣性業務訴求對數據融合分析提出了更高的要求。
在某些場景中,金融業務需要在數據湖內先使用批處理技術對原始數據加工成專題數據,然后跨集群搬移數據集市,再從數據集市上做BI分析。傳統大數據平臺中,SAS等工具通過Hive SQL訪問數據湖數據性能差,平均響應時間5分鐘~2小時,并發能力不足10,且湖倉數據割裂,將數據加工后加載到OLAP集市,數據鏈路長,分析效率和開發效率都很低。
該行通過華為云FusionInsight MRS云原生數據湖提供的HetuEngine,解決了數據湖與數倉間的數據協同分析問題,避免了不必要的ETL。
通過HetuEngine數據虛擬化實現湖倉互聯互通協同分析;
避免不必要的ETL流程,減少數據搬遷。
通過引入HetuEngine數據虛擬化引擎,在數據湖查詢分析方面該行提升了并發能力,僅1/5的資源即可支持45并發,峰值并發最大達200QPS,平均時延優化到8秒;在湖倉協同分析方面,通過HetuEngine打通數據湖與數倉間的數據壁壘,湖倉協同分析性能從分鐘級提升至秒級,同時減少80%的系統間數據搬遷同步,大大提升數據治理效率。
結語
HetuEngine作為統一高效的數據虛擬化引擎,打通了多數據源間的數據墻,實現高性能跨湖跨倉跨云數據融合分析,同時,HetuEngine提供統一訪問入口,屏蔽了傳統復雜的訪問接口,并統一使用 SQL 接口,降低大數據使用門檻,簡化用數!
華為云FusionInsight MRS云原生數據湖還將持續創新,做大數字世界黑土地,攜手800+ISV為客戶提供持續演進的湖倉一體解決方案,可以在一個架構上實現離線數據湖、實時數據湖、邏輯數據湖,在千行百業構筑“一企一湖,一城一湖”。
EI企業智能 FusionInsight MapReduce 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。