大數據“復活”記
2301
2025-04-01
一、FusionInsight MRS概述
FusionInsight MRS是華為FusionInsigth HD企業(yè)級大數據平臺本與原華為云MRS服務的融合版本,是華為云(Huawei Cloud)、HCS(Huawei Cloud Stack)統(tǒng)一的企業(yè)級大數據云服務。FusionInsight MRS完全兼容開源組件接口,結合華為云計算、存儲優(yōu)勢及大數據行業(yè)經驗,為客戶提供高性能、高性價比、靈活易用的全棧大數據平臺,一站式運行Hadoop、Spark、HBase、Kafka、Flink等大數據組件,幫助企業(yè)快速構建海量數據處理系統(tǒng),發(fā)現全新價值點和企業(yè)商機。FusionInsight MRS服務擁有強大的Hadoop組件內核團隊,歷經行業(yè)數十萬節(jié)點部署量的考驗,為60+國家3000+客戶提供企業(yè)大數據服務。
FusionInsight 8.0 MRS產品架構
FusionInsight 8.0 MRS針對開源組件進行了大面積升級,提供最新能力,并在社區(qū)基礎上對功能、性能、可靠性等方面進行了增強。
FusionInsight 8.0 MRS詳細組件列表見下圖:
二、FusionInsight 8.0 MRS的新特性
根據最新的架構,對于主要功能在新版本的增強如下:
2.1 Hadoop Core
支持從2.7.2版本平滑升級至3.1.1版本;
支持RBF的多NameNode部署,緩解主NameNode壓力,提升響應速度;
支持CPU、內存等多種資源模型調度;
Superior調度器提高資源任務調度性能。
2.2 流接入與流處理
1、支持Flink on Hive,提供FlinkSQL與Hive交互的能力,給離線數倉帶來Flink實時流能力,同時大大提高Flink易用性:
集成Hive,允許用戶使用 SQL DDL 將 Flink 特有的元數據持久化到 Hive Metastore、調用 Hive 中定義的 UDF 以及讀、寫 Hive 中的表;
Batch SQL支持原生分區(qū):寫入靜態(tài)分區(qū)、寫入動態(tài)分區(qū);投影下推;LIMIT 下推;讀取數據時的ORC向量化;
Table API/SQL擴展,SQL DDL 中支持定義 watermark,擴展SQL DDL的語法,支持創(chuàng)建目錄函數、臨時函數以及臨時系統(tǒng)函數。
2、Flink窗口存儲空間優(yōu)化,提升處理性能:
針對SlidingEventTimeWindow和SlidingProcessingTimeWindow在保存原始數據時存在的數據冗余問題,對保存原始數據的窗口進行重構,優(yōu)化存儲,使其存儲空間大大降低。
3、支持Apache Kafka 2.4,并集成社區(qū)最新能力:
增強的壓縮算法,controller處理邏輯優(yōu)化,broker啟動優(yōu)化等;
支持可視化管理界面極大提高運維效率,一鍵進行分區(qū)遷移和擴容等操作;
增強監(jiān)控告警,實時管理Kafka服務、Topic消費生產狀態(tài);
支持基于磁盤容量、分區(qū)數分區(qū)的自動分配策略,防止數據傾斜;
支持用戶連接數限制;支持對用戶操作進行審計。
2.3 數據倉庫
1、面向大數據集提供更快的SQL分析能力,包括對HetuEngine、Hive、Spark和CarbonData的提升:
HetuEngine支持動態(tài)過濾、算子下推、動態(tài)分區(qū)裁剪、Bloom Filter/Star Tree Index/啟發(fā)式索引、SMILE傳輸協(xié)議優(yōu)化、并行查詢、基于歷史查詢性能的SQL優(yōu)化等特性,性能超越Impala 30%,交互式查詢超越Hive 3倍;
CarbonData統(tǒng)一索引語法,新增index server,解決Driver側索引內存太大問題;索引進行預加載,數據入口后即自動預加載,解決首次查詢慢問題;新增二級索引和Geo索引,提升查詢性能;
Hive支持Tez引擎,大大提升了任務運行效率,TPC-DS性能提升50%以上;
Hive支持LLAP,提升交互式查詢場景的性能;
Spark SQL優(yōu)化:動態(tài)分區(qū)裁剪、distinct下推、啟發(fā)式join reorder、runtime filter、scalar subquery合并等特性;
Spark新增內置高階函數,可以直接操作復雜類型,并具備比UDF更好的性能。
2、支持事務ACID,提供T+0貼源分析的能力:
Hive支持ACID,基于事務表支持數據的INSERT/UPDATE/DELETE/MERGE語句,拓寬業(yè)務使用場景;
Hive支持增強語法語句、物化視圖、CBO等特性;
CarbonData支持統(tǒng)一MV語法,新增支持時序數據,支持Parquet/ORC表格;
CarbonData支持DB實時數據同步,只追加Delta文件,IO沖擊小。對比“文件重寫”,更新時間縮短50%-70%;多個Delta文件自動合并,避免小文件問題;
CarbonData支持一張表內混合格式:CSV、TXT、JSON、Parquet、ORC、CarbonFile。
3、交互式查詢數據虛擬化引擎的功能與性能全面提升:
全面兼容SQL-92、SQL:2003;
提供跨域查詢能力;
動態(tài)資源管理,基于YARN進行動態(tài)資源管理,支持多租戶隔離和并發(fā)處理,支持Capacity/Superior多種調度器。
2.4 NoSQL與多模計算
HBase升級到了2.2.3版本,Phoenix升級至5.0.0版本,并相互適配;
Hbase完善了AMv2,通過降低啟動時對ZK的依賴,縮短啟動時長以及故障恢復時間;支持Netty RPC,提升請求的并發(fā)處理能力;提供RS Group能力,通過Group隔離更好的支持多租戶能力。
2.5 全文檢索
Elasticsearch通過提前跳過大量在早期被識別為不會在Top-K結果集中的文檔來剪枝,提供更快的Top-K查詢性能。提供了功能完備的 high-level REST client,新增易用的search_as_you_type類型,該字段會將同一個字段進行多種類型的分詞,滿足用戶的多樣性查詢需求。
2.6 數據安全
1、新增組件Apache Ranger提供一個集中式框架進行審計,認證和授權功能:
更好的細粒度訪問控制;動態(tài)行過濾、動態(tài)列脫敏、基于屬性的訪問控制、支持大量組件對接,支持用戶、租戶、數據庫、表、記錄等不同組件不同維度細粒度訪問控制;
更豐富的策略控制,可以采用Allow/Deny constructs、自定義策略條件/上下文增強器,基于時間的策略,Atlas集成(用于基于標簽的策略)等策略;
組件審計日志統(tǒng)一管理;
安全集群、非安全集群統(tǒng)一使用,并添加初始權限,增加易用性。
2、ZooKeeper升級到了3.5.6版本,安全功能增強:
支持安全端到端通信加密,保證數據傳輸可靠性;
支持對用戶操作進行審計;
支持對服務ZNode進行配額設置,防止無限制使用ZooKeeper資源,導致過載。
2.7 集群管理
1、支持云化部署,提供集群快速發(fā)放,彈性伸縮能力,主動運維:
一鍵式集群申請,半小時級發(fā)放;
支持規(guī)則和時間計劃兩種彈性伸縮的策略;
主動運維,故障響應最快時間5分鐘。
2、運維管理能力增強:
提供滾動升級能力,不中斷業(yè)務,保證業(yè)務連續(xù)性;
提供客戶端管理能力,方便跟蹤客戶端地址,避免升級遺漏;
提供配置歷史跟蹤能力,記錄配置修改記錄、過期配置展示、非默認值展示能力;
支持堆棧采集能力,提高進程異常等問題定位效率;
提供維護模式,減少變更操作對運維人員的干擾。
2.8 超大集群能力
1、支持超大規(guī)模集群,單集群節(jié)點數可達2萬+:
改造運維管理架構,利用成熟的分布式組件技術,將原來的集約主從模式調整成可彈性伸縮的分布式模式,實現超大集群的管理運維能力;
深度優(yōu)化Superior調度器,Container的調度速率達到35萬個/s,集群資源利用率達到98%以上,超過開源Capacity的能力100%,具備超大規(guī)模調度能力。
2、支持單集群跨AZ,解決超大集群可靠性問題:
提供全組件單集群跨AZ高可靠,單機房故障,核心數據和計算任務不受影響;
優(yōu)化Yarn任務調度能力,減少不同AZ間網絡開銷。
3、全組件支持IPv6協(xié)議,解決超大集群持續(xù)演進過程中的網絡升級擴容的要求:
全組件支持IPv6能力,滿足國內各行業(yè)對IPv6升級改造的進程要求;
通過對通信端的驗證和對數據加密保護,使數據在IPv6網絡上傳輸更安全。
4、支持異構混部,解決超大規(guī)模集群建設中設備利舊的問題:
支持鯤鵬&X86混合部署;
支持混搭操作系統(tǒng)(RedHat/SUSE/CentOS/Euler)。
三、總結
FusionInsight 8.0 MRS在6月30日發(fā)布全新版本,提供2萬超大規(guī)模集群能力;HetuEngine提供了高性能交互式查詢;支持Flink On Hive,增強批流融合能力;Hive支持Tez引擎,大大提升了任務運行效率;CarbonData提供豐富的索引和物化視圖,提升Spark/Hive性能;支持事務ACID,實現全量數據T+0入湖;新增Ranger組件,增強細粒度安全控制,以及提供全新的大數據組件版本,大幅提高政府、金融、運營商、大企業(yè)等各行業(yè)大數據應用場景能力。
十多年來FusionInsight 致力于為全球60+國家地區(qū)、3000+政企客戶構建企業(yè)級智能數據湖,結合平臺+生態(tài)戰(zhàn)略,與800+商業(yè)合作伙伴 ,廣泛應用于金融、運營商、政府、能源、醫(yī)療、制造、交通等多個行業(yè),在政企數字化轉型中,釋放數據價值,助力政企客戶業(yè)務高速增長!
掃碼參與FusionInsight問卷調查
數據平臺 數據湖探索 DLI 大數據 數據庫
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。