大數據“復活”記
682
2025-03-31
近期,美國知名科技企業風投機構A16Z總結出一套通用的技術架構服務,分為以下三種場景。
一、數據基建架構全景
數據流向顯示,左側的數據源經數據處理(批量、實時流、事件流等)將數據統一匯聚到數據湖或數倉中,通過數據科學或機器學習進行AI分析,通過AD Hoc和實時分析為客戶或APP提供敏捷的結果數據。華為云FusionInsight為政企客戶提供一站式全場景的云原生數據湖,圍繞政企客戶在采存算管用等數據全生命周期提供領先的整體解決方案,方案主要包含MRS大數據、DWS數據倉庫、一站式數據治理中心等云服務,助力政企客戶釋放海量數據價值!其架構如下:
上千個大型客戶已經基于FusionInsight架構構建其大數據應用平臺。
A16Z經過調查相關業內人士得出一個結論:一個統一的現代化的數據基建需要三類架構來實踐三種不同的應用場景。
現代化 BI 架構
多模式數據處理架構
人工智能和機器學習架構
1.現代化 BI 架構
這是對小型數據團隊和預算有限的企業的默認選項,企業逐漸從傳統數倉遷移到這個架構,利用云的靈活度和可擴展性。
應用場景包含:報表,儀表盤,自助式分析,主要使用SQL來分析結構化數據。
優勢:前期投入低,啟動快,市場上人才儲備充分。
缺陷:對于數據場景復雜的團隊不適用,比如需要數據科學,機器學習,或者實時場景。
傳統的小型數據團隊其面對的數據基本以核心交易系統的RDBMS結構化數據為主,數據量在GB級,普通的數倉都可支持其數據的分析挖掘,無需大數據支撐就可完成,這種處理方式在2008年時的大型企業中也較為常見,其數據量較小基本上使用數倉就可完成日常的數據大屏、數據分析等工作。這是對小型數據團隊和預算有限的企業的默認選項,利用云的靈活度和可擴展性,企業逐漸從傳統數倉遷移到這個架構。
華為云FusionInsight可提供企業級數倉,DWS目前服務于全球1000+大型客戶,廣泛應用于政府、金融、運營商、大企業等領域。產品始于2011年,經歷將近10年技術積累,已取得180+國內外授權專利。DWS可支撐日常的結構化數據分析,其具有如下特點:
1) 大規模:GaussDB(DWS)基于分布式架構,在保證ACID的基礎下,突破大規模分布式場景下集群通信(Multi-Streams)、邏輯集群(Multi-Groups)技術,具備2048節點擴展能力。值得一提的是,邏輯集群可將ODS、數據倉庫、數據集市、自助分析等不同業務負載,有機的統一起來,有效隔離、有效共享。
2) 高性能:GaussDB(DWS)具備多層級全并行計算引擎。支持多個物理節點并行計算,在一個物理節點內部,支持多個CPU核心并行計算,在一個CPU核心的指令序列中,支持SIMD指令,實現一個指令同時操作多條數據。將并行能力發揮到極致,為業務提供極致的性能。另外,Multi-Cores技術使得在鯤鵬上性能相比同代x86芯片提升30%以上。
3) 高可靠:GaussDB(DWS)具備多層級容災能力,在AZ、集群、節點及進程出現軟硬件異常的情況下能夠平滑處理。另外,Server端Multi-Retries技術大幅減少故障失敗的業務感知;其次,在棘手的亞健康問題上,GaussDB(DWS)也有完善的檢測和處理機制;最后,離線擴容、半在線擴容、在線擴容技術能夠從容應對客戶不同的擴容需求。
華為云DWS數據倉庫技術核心是分布式架構,過去十年一直圍繞分布式構筑競爭力。未來,GaussDB(DWS) 數據倉庫將基于分布式架構持續演進,圍繞云、大數據、5G/IoT、人工智能,構筑下一代開放的、全場景分析型數據庫。
2.多模式數據處理架構
這個架構通常用于大型企業和科技公司,用來滿足復雜的數據需求場景。
應用場景包括:BI及高級功能,包括AI/ML,低延時分析,大規模數據轉換,多類型的數據處理(文字,圖像和視頻)使用各種語言(JAVA/SCALA,Python和SQL)
優勢:能靈活的支持各種應用,工具和UDF和部署環境。在大規模數據集上的成本優勢。
缺陷:不適合小型數據團隊,維護這套架構需要較多的時間,費用和專家資源投入。
在現實世界中,需求側覺醒的同時,在平行的賽博世界中,技術的進化也一直在持續。自從2006年Apache Hadoop架構發布以來,到2011年,企業逐漸采用Hadoop架構演進出來的開源或商用大數據軟件,開啟了離線計算時代;2012年,以Spark等為核心的流式計算開啟了實時計算時代,在線分析和實時計算的場景也開始逐漸應用,但這一階段的使用者主要是開發人員;2013年至今,隨著數據的激增,大數據平臺演進成了融合大數據平臺,而隨著AI等技術的突飛猛進,從數據分析到數據挖掘,大數據平臺向著智能化進行演進。權威調研機構IDC表示,“數字化時代下的競爭正在加速,市場參與者要么通過數字化轉型成為領頭企業形成規模化優勢,要么將逐漸被市場淘汰”。隨著5G、AI、IoT等技術的迅猛發展,到2025年,全球數據量將從2018年的33ZB快速增長到180ZB,全球數字經濟總量將達25萬億,CEO也越來越重視,參與度高達67%,數字化技術讓投資回報率達到6.7倍,政企數字化進程為64%。綜上可知,數字化轉型是政企充分釋放復雜場景用數需求的必經之路。
數字底座如此關鍵,那么大數據作為主要承載技術,自然是其重中之重。華為云FusionInsight提供MRS數據湖服務,讓政企客戶在一個大、快、融、穩的云原生數據湖架構下持續演進:
1)大:支持最大2萬+節點大規模集群,可集群聯邦無限擴容;
2)快:可T+0實時增量更新同步,可毫秒級高效實時OLAP,縮短分析鏈路,實現實時數據湖;
3)融:通過HetuEngine打破多引擎、多源、跨地域的限制,消除數據孤島,統一SQL接口融合分析,簡化用數,全民BI;
4)穩:支持在線滾動升級,無需拆集群、搬應用,使客戶一個架構持續演進,十年無憂!
5)云原生數據湖:通過統一元數據,讓數據全局可視;通過存算分離的企業級EC,降低TCO。
華為云大數據,自2008 年開始投入研究,最早于2014年推出商用產品,秉承開源開放的心態,踐行“平臺+生態”戰略,華為云踩對了歷史的進程,圍繞政企大數據全生命周期,華為云FusionInsight是一個技術領先的云原生智能數據湖,是華為云三大使能之數據使能方案的堅實數據底座。
3. 人工智能和機器學習架構
應用機器學習的公司已經在使用這套架構的一部分技術。深度使用機器學習的企業會部署整套架構,甚至自研新的工具。
場景:數據驅動的內外部應用程序,場景有實時的或批處理的。
優勢:完全掌控整體的開發過程,將機器學習打造為企業核心且長期的能力。
缺陷:不適合尚在探索機器學習,只為小范圍的內部應用場景。大規模應用機器學習仍是當前最大的數據挑戰
華為云ModelArts為政企客戶提供一站式的AI訓練和推理平臺,其具有如下特點:
支持AI全棧、全流程、全場景開發訓練
支持資源統一管理、統一池化調度
支持業界主流引擎和自研引擎,實現零成本遷移
提供多維度功能特性,滿足各類用戶
在近日發布的《IDC MarketScape: 中國大數據管理平臺廠商評估,2020》(以下簡稱IDC大數據報告)報告中,對中國主流大數據廠商從能力、戰略、市場份額三個維度進行了全面評估,華為云位居領導者象限領先位置,并在技術實力和市場份額兩大維度雙領先在技術上持續創新打磨之外,華為云FusionInsight也是“最懂行”的大數據解決方案:
在政府領域,國內50%的智慧城市都有華為云FusionInsight的孜孜不倦的身影,華為云大數據已支撐多個部委和各省市地區建設“大數據+政務”。在某市,華為云FusionInsight聯合伙伴建成“一云二網三平臺”,在統一的政務數據邏輯模型的指導下,針對民生、產業、政府的“痛點”和“難點”,從構建城市數據資源庫為開端,以大數據分析支撐政府智慧決策,以建設智慧應用為抓手,打破信息孤島,實現信息資源交換共享,在 “數聚惠民”、“數聚興業”、“數聚善政”三大方面,發揮大數據的威力,支撐 “一號、一窗、一網” 政務服務,讓簡政放權、百姓辦業務“最多跑一次”成為現實。
在金融領域,國內50%的TOP20金融客戶(含銀行、證券、保險等)均已使用華為云FusionInsight構建其大數據平臺。某行使用華為云FusionInsight構建大數據基礎平臺,支撐了銀行企業級數據湖、數據倉庫、集團信息庫為核心的“一湖兩庫”建設,承載了總行及各支行業務系統,支撐日常銀行BI、AI、數據挖掘、數據分析等,實現了一份數據全局可用,免除數據搬遷,提升協同效率10倍,存儲周期提升2倍,資源利用率最大可達90%,加速銀行數字化轉型進程。
在運營商領域,國內三大運營商均使用華為云FusionInsight構建其大數據平臺。廣東移動基于華為云FusionInsight,聯合政企客戶共同打造智慧電網、智慧交通、智慧港口、高清視頻等系列標桿應用,打通數據全生命周期鏈路,實現對內業務支撐、對外應用賦能,全面支撐了各類政務、民生等大數據應用服務。
在交通領域,深圳地鐵在6、10號線采用華為云FusionInsight構建大數據分析平臺,打造領先的5G+大數據方案,并構建其數據資產中心和運行監控中心,承載地鐵各業務系統,支撐設備健康、能耗管理、客流統計、線路中心級監控、應急決策和圖像型火災分析等線路級數據分析,數據分析效率從周級縮短至分鐘級,實現高效運營,推動深圳步入更美好的全聯接數字化軌道交通新時代…
除過在以上各行業的應用,在環境保護方面,青海綠能數據有限公司基于華為云FusionInsight構建了國內首個能源大數據創新平臺,實現了規劃輔助決策、用氣象數據科學指導發電等創新業務,為上下游產業鏈企業提供25類47項數據服務,推動28座新能源場站實現了“無人值班、少人值守”,并有效支撐了青海“綠電15日”,以大數據為基石,建設綠色新青海,守護高原和諧生態。
同時,華為堅持“自己的降落傘自己先跳”,華為集團IT通過FusionInsight構建OneData大數據集群,實現大數據平臺在大規模場景下的開拓,OneData集群其規模已至1萬+節點;同時,實現了統一的數據管理服務,在菩提海UniDB產品中,通過邏輯統一方式,把50+物理分散的計算集群(Hadoop+MPP),基于五統一(數據安全,元數據目錄,數據集成,數據訪問,任務調度),整合成湖倉一體的架構,支撐上千個企業租戶的PB級數據分析處理需求。一個基于FusionInsight MRS+DWS 的“+治理,+AI,+運營,+云”的融合數據底座(菩提海)已經在華為集團IT廣泛使用,未來可期。
以上只是“冰山的一角”,華為云FusionInsight一方面不斷深入理解客戶不斷發展的業務訴求,另一方面,持續技術創新并引領行業發展,商業訴求+技術創新雙輪驅動行業可持續、高質量發展,“用數”助力客戶商業成功!上面的論述已經充分證明,華為云是“懂行”的大數據領導者,真正讓客戶用好數、管好數、放心用。
據了解,截至2020 年10月底,華為云FusionInsight 智能數據湖已服務60+個國家和地區,3,000+客戶,覆蓋政府、金融、運營商、電力、傳媒、醫療、教育、交通、油氣、物流、零售、制造、互聯網等行業。
AI 云原生
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。