大數據“復活”記
1010
2025-03-31
大數據是人類進入互聯網時代以來面臨的一個巨大問題:社會生產生活產生的數據量越來越大,數據種類越來越多,數據產生的速度越來越快。傳統的數據處理技術,比如說單機存儲,關系數據庫已經無法解決這些新的大數據問題。為解決以上大數據處理問題,Apache基金會推出了Hadoop大數據處理的開源解決方案。Hadoop是一個開源分布式計算平臺,可以充分利用集群的計算和存儲能力,完成海量數據的處理。企業自行部署Hadoop系統有成本高,周期長,難運維和不靈活等問題。
針對上述問題,華為云提供了大數據MapReduce服務(MRS),MRS是一個在華為云上部署和管理Hadoop系統的服務,一鍵即可部署Hadoop集群。MRS提供租戶完全可控的一站式企業級大數據集群云服務,完全兼容開源接口,結合華為云計算、存儲優勢及大數據行業經驗,為客戶提供高性能、低成本、靈活易用的全棧大數據平臺,輕松運行Hadoop、Spark、HBase、Kafka、Storm等大數據組件,并具備在后續根據業務需要進行定制開發的能力,幫助企業快速構建海量數據信息處理系統,并通過對海量信息數據實時與非實時的分析挖掘,發現全新價值點和企業商機。
MRS組件版本情況請參見MRS組件版本一覽表。
MRS邏輯架構如圖1所示。
圖1?MRS架構
MRS架構包括了基礎設施和大數據處理流程各個階段的能力。
基礎設施
MRS基于華為云彈性云服務器ECS構建的大數據集群,充分利用了其虛擬化層的高可靠、高安全的能力。
虛擬私有云(VPC)為每個租戶提供的虛擬內部網絡,默認與其他網絡隔離。
云硬盤(EVS)提供高可靠、高性能的存儲。
彈性云服務器(ECS)提供的彈性可擴展虛擬機,結合VPC、安全組、EVS數據多副本等能力打造一個高效、可靠、安全的計算環境。
數據集成
數據集成層提供了數據接入到MRS集群的能力,包括Flume(數據采集)、Loader(關系型數據導入)、Kafka(高可靠消息隊列),支持各種數據源導入數據到大數據集群中。
數據存儲
MRS支持結構化和非結構化數據在集群中的存儲,并且支持多種高效的格式來滿足不同計算引擎的要求。
HDFS是大數據上通用的分布式文件系統。
OBS是對象存儲服務,具有高可用低成本的特點。
HBase支持帶索引的數據存儲,適合高性能基于索引查詢的場景。
數據計算
MRS提供多種主流計算引擎:MapReduce(批處理)、Tez(DAG模型)、Spark(內存計算)、SparkStreaming(微批流計算)、Storm(流計算)、Flink(流計算),滿足多種大數據應用場景,將數據進行結構和邏輯的轉換,轉化成滿足業務目標的數據模型。
數據分析
基于預設的數據模型,使用易用SQL的數據分析,用戶可以選擇Hive(數據倉庫),SparkSQL以及Presto交互式查詢引擎。
數據呈現調度
用于數據分析結果的呈現,并與數據湖工廠(DLF)集成,提供一站式的大數據協同開發平臺,幫助用戶輕松完成數據建模、數據集成、腳本開發、作業調度、運維監控等多項任務,可以極大降低用戶使用大數據的門檻,幫助用戶快速構建大數據處理中心。
集群管理
以Hadoop為基礎的大數據生態的各種組件均是以分布式的方式進行部署,其部署、管理和運維復雜度較高。
MRS集群管理提供了統一的運維管理平臺,包括一鍵式部署集群能力,并提供多版本選擇,支持運行過程中集群在無業務中斷條件下,進行擴縮容、彈性伸縮。同時MRS集群管理還提供了作業管理、資源標簽管理,以及對上述數據處理各層組件的運維,并提供監控、告警、配置、補丁升級等一站式運維能力。
MRS服務擁有強大的Hadoop內核團隊,基于華為FusionInsight大數據企業級平臺構筑。歷經行業數萬節點部署量的考驗,提供多級用戶SLA保障。
MRS具有如下優勢:
高性能
MRS支持自研的CarbonData存儲技術。CarbonData是一種高性能大數據存儲方案,以一份數據同時支持多種應用場景,并通過多級索引、字典編碼、預聚合、動態Partition、準實時數據查詢等特性提升了IO掃描和計算性能,實現萬億數據分析秒級響應。同時MRS支持自研增強型調度器Superior,突破單集群規模瓶頸,單集群調度能力超10000節點。
低成本
基于多樣化的云基礎設施,提供了豐富的計算、存儲設施的選擇,同時計算存儲分離,提供了低成本海量數據存儲方案。MRS可以按業務峰谷,自動彈性伸縮,幫助客戶節省大數據平臺閑時資源。MRS集群可以用時再創建、用時再擴容,用完就可以銷毀、縮容,確保成本最優。
高安全
MRS服務擁有企業級的大數據多租戶權限管理能力,擁有企業級的大數據安全管理特性,支持按照表/按列控制訪問權限,支持數據按照表/按列加密。
易運維
MRS提供可視化大數據集群管理平臺,提高運維效率。并支持滾動補丁升級,可視化補丁發布信息,一鍵式補丁安裝,無需人工干預,不停業務,保障用戶集群長期穩定。
高可靠
MRS服務經過大規模的可靠性、長穩驗證,滿足企業級高可靠要求,同時支持數據跨AZ/跨Region自動備份的數據容災能力,自動反親和技術,虛擬機分布在不同物理機上。
如果您是首次使用MRS的用戶,建議您學習并了解如下信息:
基礎知識了解
通過MRS組件介紹和產品功能章節的內容,了解MRS相關的基礎知識,包含MRS各組件的基本原理和增強特性介紹,以及MRS服務的特有概念和功能的詳細介紹。
入門使用
您可以參考《快速入門》學習并上手使用MRS。《快速入門》提供了樣例的詳細操作指導,您可以基于此操作指導,創建和使用MRS集群。
使用更多的功能,并查看其相關操作指導
如果您是一個MRS集群使用和運維人員,可以參考用戶指南完成集群的生命周期管理、擴縮容以及作業管理等操作。集群中組件的使用指導可以詳細參考組件操作指南。
如果您是一個開發者,可以參考MRS提供的開發指南操作指導及樣例工程開發并運行調測自己的應用程序。您也可以通過API調用完成MRS集群管理、作業執行等相關操作,您可以參考《API參考》獲取詳情。
EI企業智能 FusionInsight
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。