數(shù)據(jù)倉庫、數(shù)據(jù)湖,到數(shù)據(jù)中臺的差異與架構(gòu)演進

      網(wǎng)友投稿 939 2025-03-31

      從數(shù)據(jù)倉庫、數(shù)據(jù)湖,到數(shù)據(jù)中臺的差異與架構(gòu)演進

      數(shù)據(jù)倉庫平臺逐步從 BI 報表為主到分析為主、到預(yù)測為主、再到操作智能為目標(biāo)。

      商務(wù)智能( BI , Business Intelligence )

      是一種以提供決策分析性的運營數(shù)據(jù)為目的而建立的信息系統(tǒng)。是屬于在線分析處理: On Line Analytical Processing(OLAP) ,將預(yù)先計算完成的匯總數(shù)據(jù),儲存于魔方數(shù)據(jù)庫 (Cube) 之中,針對復(fù)雜的分析查詢,提供快速的響應(yīng)。在前 10 年, BI 報表項目比較多,是數(shù)據(jù)倉庫項目的前期預(yù)熱項目(主要分析為主的階段,是數(shù)據(jù)倉庫的初級階段),制作一些可視化報表展現(xiàn)給管理者。

      它利用信息科技,將分散于企業(yè)內(nèi)、外部各種數(shù)據(jù)加以整合并轉(zhuǎn)換成知識,并依據(jù)某些特定的主題需求,進行決策分析和運算;

      用戶則通過報表、圖表、多維度分析的方式,尋找解決業(yè)務(wù)問題所需要的方案;

      這些結(jié)果將呈報給決策者,以支持策略性的決策和定義組織績效,或者融入智能知識庫自動向客戶推送。

      1 、數(shù)據(jù)倉庫的基本定義

      數(shù)據(jù)倉庫 (Data Warehouse) 是一個面向主題的( Subject Oriented )、集成的( Integrated )、相對穩(wěn)定的( Non-Volatile )、反映歷史變化的( Time Variant )數(shù)據(jù)集合,用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統(tǒng)之聯(lián)機事務(wù)處理 (OLTP) 經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),作一有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機分 析處理 (OLAP) 、數(shù)據(jù)挖掘 (Data Mining) 之進行,并進而支持如決策支持系統(tǒng) (DSS) 、主管資訊系統(tǒng) (EIS) 之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動,幫助建構(gòu)商業(yè)智能 (BI) 。 [1] :引自全球數(shù)據(jù)倉庫之父 W.H.Inmon 。

      ( 1 )所謂主題: 是指用戶使用數(shù)據(jù)倉庫進行決策時所關(guān)心的重點方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進行組織的。

      ( 2 )所謂集成: 是指數(shù)據(jù)倉庫中的信息不是從各個業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個企業(yè)的一致的全局信息。

      ( 3 )所謂隨時間變化: 是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時點到當(dāng)前各個階段的信息。通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。

      2 、數(shù)據(jù)倉庫系統(tǒng)作用和定位

      數(shù)據(jù)倉庫系統(tǒng)的作用能實現(xiàn)跨業(yè)務(wù)條線、跨系統(tǒng)的數(shù)據(jù)整合,為管理分析和業(yè)務(wù)決策提供統(tǒng)一的數(shù)據(jù)支持。數(shù)據(jù)倉庫能夠從根本上幫助你把公司的運營數(shù)據(jù)轉(zhuǎn)化成為高價值的可以獲取的信息(或知識),并且在恰當(dāng)?shù)臅r候通過恰當(dāng)?shù)姆绞桨亚‘?dāng)?shù)男畔鬟f給恰當(dāng)?shù)娜恕?/p>

      ( 1 )是面向企業(yè)中、高級管理進行業(yè)務(wù)分析和績效考核的數(shù)據(jù)整合、分析和展現(xiàn)的工具;

      ( 2 )是主要用于 歷史性、綜合性和深層次數(shù)據(jù)分析 ;

      ( 3 )數(shù)據(jù)來源是 ERP (例 :SAP )系統(tǒng)或其他業(yè)務(wù)系統(tǒng);

      ( 4 )能夠提供靈活、直觀、簡潔和易于操作的多維查詢分析 ;

      ( 5 )不是日常交易操作系統(tǒng),不能直接產(chǎn)生交易數(shù)據(jù)。

      數(shù)據(jù)倉庫針對實時數(shù)據(jù)處理,非結(jié)構(gòu)化數(shù)據(jù)處理能力較弱,以及在業(yè)務(wù)在預(yù)警預(yù)測方面應(yīng)用相對有限。

      3 、數(shù)據(jù)倉庫能提供什么

      4 、數(shù)據(jù)倉庫的系統(tǒng)構(gòu)成

      數(shù)據(jù)倉庫系統(tǒng)除了包含分析產(chǎn)品本身之外,還包含數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)計算、門戶展現(xiàn)、平臺管理等其它一系列的產(chǎn)品。

      二、數(shù)據(jù)湖

      數(shù)據(jù)湖( Data Lake )是一個存儲企業(yè)的各種各樣原始數(shù)據(jù)的大型倉庫,其中的數(shù)據(jù)可供存取、處理、分析及傳輸。 數(shù)據(jù)湖是以其自然格式存儲的數(shù)據(jù)的系統(tǒng)或存儲庫,通常是對象 blob 或文件。數(shù)據(jù)湖通常是企業(yè)所有數(shù)據(jù)的單一存儲,包括源系統(tǒng)數(shù)據(jù)的原始副本,以及用于報告、可視化、分析和機器學(xué)習(xí)等任務(wù)的轉(zhuǎn)換數(shù)據(jù)。數(shù)據(jù)湖可以包括來自關(guān)系數(shù)據(jù)庫(行和列)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)( CSV ,日志, XML , JSON ),非結(jié)構(gòu)化數(shù)據(jù)(電子郵件,文檔, PDF )和二進制數(shù)據(jù)(圖像,音頻,視頻)。來源:維基百科。

      目前, Hadoop 是最常用的部署數(shù)據(jù)湖的技術(shù),所以很多人會覺得數(shù)據(jù)湖就是 Hadoop 集群。數(shù)據(jù)湖是一個概念,而 Hadoop 是用于實現(xiàn)這個概念的技術(shù)。

      1 、數(shù)據(jù)湖帶來的企業(yè)能力

      數(shù)據(jù)湖能給企業(yè)帶來多種能力,例如,能實現(xiàn)數(shù)據(jù)的集中式管理,在此之上,企業(yè)能挖掘出很多之前所不具備的能力。另外,數(shù)據(jù)湖結(jié)合先進的數(shù)據(jù)科學(xué)與 機器學(xué)習(xí)技術(shù),能幫助企業(yè)構(gòu)建更多優(yōu)化后的運營模型,也能為企業(yè)提供其他能力,如預(yù)測分析、推薦模型等,這些模型能刺激企業(yè)能力的后續(xù)增長。數(shù)據(jù)湖能從以下方面幫助到企業(yè):

      ( 1 )實現(xiàn)數(shù)據(jù)治理( data governance );

      ( 2 )通過應(yīng)用機器學(xué)習(xí)與人工智能技術(shù)實現(xiàn)商業(yè)智能;

      ( 3 )預(yù)測分析,如領(lǐng)域特定的推薦引擎;

      ( 4 )信息追蹤與一致性保障;

      ( 5 )根據(jù)對歷史的分析生成新的數(shù)據(jù)維度;

      ( 6 )有一個集中式的能存儲所有企業(yè)數(shù)據(jù)的數(shù)據(jù)中心,有利于實現(xiàn)一個針對數(shù)據(jù)傳輸優(yōu)化的數(shù)據(jù)服務(wù);

      ( 7 )幫助組織或企業(yè)做出更多靈活的關(guān)于企業(yè)增長的決策。

      2 、數(shù)據(jù)湖與數(shù)據(jù)倉庫的差異

      ( 1 )在儲存方面上,數(shù)據(jù)湖中數(shù)據(jù)為非結(jié)構(gòu)化的,所有數(shù)據(jù)都保持原始形式。存儲所有數(shù)據(jù),并且僅在分析時再進行轉(zhuǎn)換。數(shù)據(jù)倉庫就是數(shù)據(jù)通常從事務(wù)系統(tǒng)中提取。

      ( 2 )在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前,會對數(shù)據(jù)進行清理與轉(zhuǎn)換。在數(shù)據(jù)抓取中數(shù)據(jù)湖就是捕獲半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。而數(shù)據(jù)倉庫則是捕獲結(jié)構(gòu)化數(shù)據(jù)并將其按模式組織。

      ( 3 )數(shù)據(jù)湖的目的就是數(shù)據(jù)湖非常適合深入分析的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)科學(xué)家可能會用具有預(yù)測建模和統(tǒng)計分析等功能的高級分析工具。而數(shù)據(jù)倉庫就是數(shù)據(jù)倉庫非常適用于月度報告等操作用途,因為它具有高度結(jié)構(gòu)化。

      ( 4 )在架構(gòu)中數(shù)據(jù)湖通常,在存儲數(shù)據(jù)之后定義架構(gòu)。使用較少的初始工作并提供更大的靈活性。在數(shù)據(jù)倉庫中存儲數(shù)據(jù)之前定義架構(gòu)。

      三、數(shù)據(jù)中臺

      1 、產(chǎn)生背景

      企業(yè)在過去信息化的歷程中形成了大量生產(chǎn)經(jīng)營及專業(yè)業(yè)務(wù)應(yīng)用成果,同時也累積了大量的企業(yè)數(shù)據(jù)資產(chǎn)。限于傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)手段,數(shù)據(jù)管理和分析能力成為信息化工作中的短板。

      企業(yè)信息系統(tǒng)眾多,系統(tǒng)管理獨立,數(shù)據(jù)存儲分散,橫向的數(shù)據(jù)共享和分析應(yīng)用僅由具體業(yè)務(wù)驅(qū)動,難以對全局數(shù)據(jù)開展價值挖掘,從規(guī)模上和效果上都無法真正體現(xiàn)集團龐大數(shù)據(jù)資產(chǎn)的價值。

      市場競爭和產(chǎn)業(yè)鏈日益全球化,企業(yè)不只滿足于內(nèi)部數(shù)據(jù)的分析,更要通過互聯(lián)網(wǎng)、微信、 APP 等新技術(shù)手段結(jié)合外部市場數(shù)據(jù)進行整體分析。

      1 )傳統(tǒng)的數(shù)據(jù)倉庫不能滿足數(shù)據(jù)分析需求

      企業(yè)在數(shù)據(jù)分析應(yīng)用方面呈現(xiàn) “ 五大轉(zhuǎn)變 ” (從統(tǒng)計分析向預(yù)測分析轉(zhuǎn)變、從單領(lǐng)域分析向跨領(lǐng)域轉(zhuǎn)變、從被動分析向主動分析轉(zhuǎn)變、從非實時向?qū)崟r分析轉(zhuǎn)變、從結(jié)構(gòu)化數(shù)據(jù)向多元化轉(zhuǎn)變),并且對統(tǒng)一的數(shù)據(jù)中臺平臺訴求強烈,對數(shù)據(jù)中臺的運算能力、核心算法、及數(shù)據(jù)全面性提出了更高的要求。

      2 )數(shù)據(jù)中臺的處理架構(gòu)發(fā)生了變化

      一是以 Hadoop 、 Spark 等分布式技術(shù)和組件為核心的 “ 計算 & 存儲混搭 ” 的數(shù)據(jù)處理架構(gòu),能夠支持批量和實時的數(shù)據(jù)加載以及靈活的業(yè)務(wù)需求。

      二是數(shù)據(jù)的預(yù)處理流程正在從傳統(tǒng)的 ETL 結(jié)構(gòu)向 ELT 轉(zhuǎn)變。傳統(tǒng)的數(shù)據(jù)倉庫集成處理架構(gòu)是 ETL 結(jié)構(gòu),這是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),即用戶從數(shù)據(jù)源抽取出所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中去。而大數(shù)據(jù)背景下的架構(gòu)體系是 ELT 結(jié)構(gòu),其根據(jù)上層的應(yīng)用需求,隨時從數(shù)據(jù)中臺中抽取想要的原始數(shù)據(jù)進行建模分析。

      2、數(shù)據(jù)中臺建設(shè)是數(shù)字化轉(zhuǎn)型的支撐

      數(shù)據(jù)中臺成為熱點, “ 中臺 ” 這個概念,是相對于前臺和后臺而生,是前臺和后臺的鏈接點,將業(yè)務(wù)共同的工具和技術(shù)予以沉淀。數(shù)據(jù)中臺是指 數(shù)據(jù)采集交換、共享融合、組織處理、建模分析、管理治理和服務(wù)應(yīng)用于一體的綜合性數(shù)據(jù)能力平臺 ,在大數(shù)據(jù)生態(tài)中處于承上啟下的功能,提供面向數(shù)據(jù)應(yīng)用支撐的底座能力。

      廣義上來給數(shù)據(jù)中臺一個企業(yè)級的定義: “ 聚合和治理跨域數(shù)據(jù),將數(shù)據(jù)抽象封裝成服務(wù),提供給前臺以業(yè)務(wù)價值的邏輯概念 ” 。

      中臺戰(zhàn)略核心是數(shù)據(jù)服務(wù)的共享。中臺戰(zhàn)略并不是搭建一個數(shù)據(jù)平臺,但是中臺的大部分服務(wù)都是圍繞數(shù)據(jù)而生,數(shù)據(jù)中臺是圍繞向上層應(yīng)用提供數(shù)據(jù)服務(wù)構(gòu)建的,中臺戰(zhàn)略讓數(shù)據(jù)在數(shù)據(jù)平臺和業(yè)務(wù)系統(tǒng)之間形成了一個良性的閉環(huán),也就是實現(xiàn)應(yīng)用與數(shù)據(jù)之間解藕,并實現(xiàn)緊密交互。

      ( 1 )敏捷前臺: 一線作戰(zhàn)單元,強調(diào)敏捷交互及穩(wěn)定交付的組織能力建設(shè)。

      ( 2 )業(yè)務(wù)中臺: 能力固化與賦能,固化通用能力,賦能前線部隊,提升配置效率,加快前線響應(yīng),產(chǎn)品化業(yè)務(wù)化,開辟全新生態(tài)。

      ( 3 )數(shù)據(jù)中臺: 資產(chǎn)整合與共享,整合多維數(shù)據(jù),統(tǒng)一資產(chǎn)管理,連通數(shù)據(jù)孤島,共享數(shù)據(jù)資源,深入挖掘數(shù)據(jù),盤活資產(chǎn)價值。

      ( 4 )穩(wěn)定后臺: 以共享中心建設(shè)為核心,為前中臺提供專業(yè)的內(nèi)部服務(wù)支撐。

      3 、數(shù)據(jù)中臺定義及處理架構(gòu)

      數(shù)據(jù)中臺是指通過企業(yè)內(nèi)外部多源異構(gòu)的 數(shù)據(jù)采集、治理、建模、分析,應(yīng)用,使數(shù)據(jù)對內(nèi)優(yōu)化管理提高業(yè)務(wù),對外可以數(shù)據(jù)合作價值釋放,成為企業(yè)數(shù)據(jù)資產(chǎn)管理中樞。 數(shù)據(jù)中臺建立后,會形成數(shù)據(jù) API ,為企業(yè)和客戶提供高效各種數(shù)據(jù)服務(wù)。

      數(shù)據(jù)中臺整體技術(shù)架構(gòu)上采用云計算架構(gòu)模式,將數(shù)據(jù)資源、計算資源、存儲資源充分云化,并通過多租戶技術(shù)進行資源打包整合,并進行開放,為用戶提供 “ 一站式 ” 數(shù)據(jù)服務(wù)。

      利用大數(shù)據(jù)技術(shù),對海量數(shù)據(jù)進行統(tǒng)一采集、計算、存儲,并使用統(tǒng)一的數(shù)據(jù)規(guī)范進行管理,將企業(yè)內(nèi)部所有數(shù)據(jù)統(tǒng)一處理形成標(biāo)準(zhǔn)化數(shù)據(jù),挖掘出對企業(yè)最有價值的數(shù)據(jù),構(gòu)建企業(yè)數(shù)據(jù)資產(chǎn)庫,提供一致的、高可用大 ? 數(shù)據(jù)服務(wù)。

      數(shù)據(jù)中臺不是一套軟件,也不是一個信息系統(tǒng),而是一系列數(shù)據(jù)組件的集合,企業(yè)基于自身的信息化建設(shè)基礎(chǔ)、數(shù)據(jù)基礎(chǔ)以及業(yè)務(wù)特點對數(shù)據(jù)中臺的能力進行定義,基于能力定義利用數(shù)據(jù)組件搭建自己的數(shù)據(jù)中臺。

      4 、數(shù)據(jù)中臺帶來的價值

      數(shù)據(jù)中臺對一個企業(yè)的數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā)展起著至關(guān)重要的作用。數(shù)據(jù)中臺為解耦而生,企業(yè)建設(shè)數(shù)據(jù)中臺的最大意義就是應(yīng)用與數(shù)據(jù)解藕。這樣企業(yè)就可以不受限制地按需構(gòu)建滿足業(yè)務(wù)需求的數(shù)據(jù)應(yīng)用。

      ( 1 )構(gòu)建了開放、靈活、可擴展的企業(yè)級統(tǒng)一數(shù)據(jù)管理和分析平臺, 將企業(yè)內(nèi)、外部數(shù)據(jù)隨需關(guān)聯(lián),打破了數(shù)據(jù)的系統(tǒng)界限。

      ( 2 )利用大數(shù)據(jù)智能分析、數(shù)據(jù)可視化等技術(shù),實現(xiàn)了數(shù)據(jù)共享、日常報表自動生成、快速和智能分析,滿足集團總部和各分子公司各級數(shù)據(jù)分析應(yīng)用需求。

      ( 3 )深度挖掘數(shù)據(jù)價值,助力企業(yè)數(shù)字化轉(zhuǎn)型落地。實現(xiàn)了數(shù)據(jù)的目錄、模型、標(biāo)準(zhǔn)、認責(zé)、安全、可視化、共享等管理,實現(xiàn)數(shù)據(jù)集中存儲、處理、分類與管理,建立大數(shù)據(jù)分析工具庫、算法服務(wù)庫,實現(xiàn)報表生成自動化、數(shù)據(jù)分析敏捷化、數(shù)據(jù)挖掘可視化,實現(xiàn)數(shù)據(jù)質(zhì)量評估、落地管理流程。

      數(shù)據(jù)倉庫服務(wù) GaussDB(DWS)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:STM32實戰(zhàn) 2 | STM32CubeMX及HAL庫點亮LED
      下一篇:word 文檔如何排兩版(word怎么刪除空白頁)
      相關(guān)文章
      亚洲中文字幕在线乱码| 色播亚洲视频在线观看| 亚洲日韩在线视频| 久久久亚洲欧洲日产国码aⅴ| 午夜亚洲国产精品福利| 亚洲成av人片天堂网无码】| 亚洲欧美成人av在线观看| 亚洲日韩国产欧美一区二区三区| 亚洲一级毛片在线播放| 亚洲av无码电影网| 亚洲人成7777| 亚洲欧洲日韩极速播放| 亚洲性无码一区二区三区| 亚洲熟女精品中文字幕| 亚洲欧美第一成人网站7777| 色欲色欲天天天www亚洲伊| 精品国产_亚洲人成在线| 怡红院亚洲红怡院在线观看| 亚洲?v无码国产在丝袜线观看| 老牛精品亚洲成av人片| 亚洲国产精品专区在线观看| 久99精品视频在线观看婷亚洲片国产一区一级在线| 国产成人 亚洲欧洲| 亚洲国产综合精品中文字幕 | 国产亚洲精品激情都市| 中文字幕亚洲图片| 亚洲国产精品久久久天堂| 亚洲av无码成h人动漫无遮挡| 亚洲国产一区在线| 亚洲欧洲日产国码www| 国产午夜亚洲精品| 国产成人久久精品亚洲小说| 国产成人毛片亚洲精品| 久久亚洲国产午夜精品理论片| 国产亚洲成AV人片在线观黄桃| 亚洲国产精品久久久久| 亚洲国产成人超福利久久精品| 亚洲一区二区三区在线观看网站 | 亚洲AV成人片色在线观看| 亚洲精品无码久久久久久久| 日本亚洲精品色婷婷在线影院|