大數(shù)據(jù)“復(fù)活”記
839
2025-03-31
前言
本章主要講述華為云大數(shù)據(jù)解決方案,云上大數(shù)據(jù)處理與分析方法。介紹了華為云EI主流大數(shù)據(jù)服務(wù),如MRS服務(wù)、DWS服務(wù)和CSS服務(wù)。由此引出兩種常見(jiàn)的大數(shù)據(jù)解決方案,離線(xiàn)處理和實(shí)時(shí)流處理,并對(duì)它們的架構(gòu)優(yōu)勢(shì)、實(shí)現(xiàn)原理、應(yīng)用分析與案例場(chǎng)景進(jìn)行講解。最后對(duì)DAYU數(shù)據(jù)運(yùn)營(yíng)平臺(tái)進(jìn)行了介紹。
目標(biāo)
學(xué)完本課程后,您將能夠:
描述主流華為云EI服務(wù)
區(qū)分離線(xiàn)處理和實(shí)時(shí)流處理的方案架構(gòu)和應(yīng)用場(chǎng)景
了解DAYU數(shù)據(jù)運(yùn)營(yíng)平臺(tái)的功能
目錄
1.大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)
2.華為云大數(shù)據(jù)服務(wù)
3.華為云大數(shù)據(jù)解決方案
4. DAYU數(shù)據(jù)運(yùn)營(yíng)平臺(tái)
三、華為云大數(shù)據(jù)解決方案
離線(xiàn)處理
離線(xiàn)處理通常是指對(duì)海量數(shù)據(jù)進(jìn)行分析和處理,形成結(jié)果數(shù)據(jù),供下一步數(shù)據(jù)應(yīng)用使用。離線(xiàn)處理對(duì)處理時(shí)間要求不高,但是所處理數(shù)據(jù)量較大,占用計(jì)算、存儲(chǔ)資源較多,通常通過(guò)spark作業(yè)或者sql作業(yè)實(shí)現(xiàn)。
那我們的數(shù)據(jù)是怎樣處理的呢?首先要提取數(shù)據(jù)源,包括流式數(shù)據(jù)、批量文件數(shù)據(jù)、數(shù)據(jù)庫(kù)等的數(shù)據(jù)源,之后進(jìn)行數(shù)據(jù)采集,可以實(shí)時(shí)數(shù)據(jù)采集,也可以批量采集,到達(dá)離線(xiàn)批處理引擎來(lái)實(shí)現(xiàn)高性能的離線(xiàn)批處理作業(yè)運(yùn)行。最后使用批處理結(jié)果的業(yè)務(wù)應(yīng)用由ISV開(kāi)發(fā)。但是實(shí)現(xiàn)離線(xiàn)處理也是有一定的核心訴求的,例如用戶(hù)數(shù)據(jù)量最大超過(guò)五PB,大于1000節(jié)點(diǎn),多種離線(xiàn)處理作業(yè)同時(shí)運(yùn)行,需要不同的數(shù)據(jù)、權(quán)限和資源調(diào)度,避免越權(quán)訪(fǎng)問(wèn)和搶占資源。客戶(hù)通常存在存量離線(xiàn)處理應(yīng)用需要遷移到fusionInsight平臺(tái),支持多數(shù)據(jù)源、多種數(shù)據(jù)加載方式,用戶(hù)數(shù)據(jù)熱度不同,希望有分級(jí)存儲(chǔ)策略,達(dá)到性能和成本的平衡等。
數(shù)據(jù)采集工具Flume
在數(shù)據(jù)采集的時(shí)候會(huì)使用到一個(gè)工具Flume,它是一個(gè)分布式、高可靠和高可用的海量數(shù)據(jù)聚合系統(tǒng)。支持在系統(tǒng)中定制各類(lèi)數(shù)據(jù)提供方和數(shù)據(jù)發(fā)送方,用于收集各種類(lèi)型數(shù)據(jù),并支持?jǐn)?shù)據(jù)進(jìn)行簡(jiǎn)單處理,是一個(gè)使用簡(jiǎn)單方便的數(shù)據(jù)采集工具。支持加密傳輸和非加密傳輸,支持?jǐn)帱c(diǎn)續(xù)傳、支持?jǐn)?shù)據(jù)緩存。我們的數(shù)據(jù)會(huì)先經(jīng)過(guò)攔截過(guò)濾、修飾之后,進(jìn)入到通道之后,sink會(huì)從通道中采集出來(lái)數(shù)據(jù)并進(jìn)行分發(fā),這就完成了數(shù)據(jù)采集的過(guò)程。
當(dāng)然如果要做簡(jiǎn)單的數(shù)據(jù)轉(zhuǎn)換和遷移,可以使用loader進(jìn)行復(fù)雜的數(shù)據(jù)加工處理,需要加載到Hadoop內(nèi)部后,使用離線(xiàn)處理作業(yè)處理。loader支持可視化數(shù)據(jù)集成,支持多種數(shù)據(jù)源,還有著高性能的特點(diǎn)。接下來(lái),我們會(huì)對(duì)離線(xiàn)批處理引擎內(nèi)的部分組件進(jìn)行簡(jiǎn)單的介紹。離線(xiàn)批處理引擎內(nèi)有個(gè)spark,spark是一站式解決方案及批處理、實(shí)時(shí)流處理、交互式查詢(xún)、圖計(jì)算與機(jī)器學(xué)習(xí)于一體。
Spark 體系架構(gòu)
在這幅圖中,Spark Core類(lèi)似于MR的分布式內(nèi)存計(jì)算框架最大,它的特點(diǎn)是將中間計(jì)算結(jié)果直接放在內(nèi)存中,提升計(jì)算性能。spark SQL是一個(gè)用于處理結(jié)構(gòu)化數(shù)據(jù)的spark組件,主要用于結(jié)構(gòu)化數(shù)據(jù)處理和對(duì)數(shù)據(jù)執(zhí)行類(lèi)似sql查詢(xún)。structured streaming 處理的流處理引擎,將流數(shù)據(jù)分片以后,用spark code計(jì)算引擎中進(jìn)行處理,但spark和mapreduce都是Hadoop中最基礎(chǔ)的分布式計(jì)算框架。它們兩個(gè)有什么區(qū)別呢?
區(qū)別就在于spark主要依賴(lài)內(nèi)存迭代,mapreduce則依賴(lài)hdfs存儲(chǔ)中間結(jié)果數(shù)據(jù)。spark的中間數(shù)據(jù)放到內(nèi)存中效率更高,通過(guò)彈性分布式數(shù)據(jù)集實(shí)現(xiàn)內(nèi)存中計(jì)算,避免磁盤(pán)操作。spark比hadoop更通用、編程模型更靈活。而且與hadoop不同,spark使用Scala編程語(yǔ)言,語(yǔ)言簡(jiǎn)潔且表達(dá)力強(qiáng)。
在海量批處理引擎中還有一個(gè)重要的組件Hive,Hive引擎把客戶(hù)提交的sql類(lèi)作業(yè)轉(zhuǎn)譯成mr作業(yè),在y的資源調(diào)度下訪(fǎng)問(wèn)hdfs數(shù)據(jù)對(duì)外呈現(xiàn)就像是一個(gè)sql數(shù)據(jù)庫(kù)。hive兼容基本的sql,支持多種sql求訪(fǎng)問(wèn)接口,支持節(jié)點(diǎn)線(xiàn)性擴(kuò)展,支持?jǐn)?shù)據(jù)壓縮和數(shù)據(jù)加密,并且統(tǒng)一原數(shù)據(jù)和數(shù)據(jù)權(quán)限,可以與spark SQL共享元數(shù)據(jù),使用相同的數(shù)據(jù)權(quán)限。
hive基于hadoop的hdfs和mapreduce框架,初步實(shí)現(xiàn)了針對(duì)海量數(shù)據(jù)上進(jìn)行類(lèi)sql語(yǔ)言查詢(xún)的功能。但是由于mapreduce框架本身的局限性,性能上具有很大的提升空間。
Hive與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)對(duì)比
hive和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)相比較,在存儲(chǔ)靈活性、分析速度等方面有著大幅度的提升,但是在索引這方面還是沒(méi)有傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)那么成熟。
我們?cè)倏匆幌聅park SQL,spark SQL引擎把客戶(hù)提交的sql類(lèi)作業(yè)轉(zhuǎn)譯成spark作業(yè)。在YARN資源調(diào)度下訪(fǎng)問(wèn)hdfs數(shù)據(jù)對(duì)外呈現(xiàn),就像是一個(gè)sql數(shù)據(jù)庫(kù),可以針對(duì)復(fù)雜貢獻(xiàn)社區(qū),可以大幅提升性能,SQL優(yōu)化性能,CBO是華為主導(dǎo),支持多個(gè)sql訪(fǎng)問(wèn)接口,統(tǒng)一原數(shù)據(jù)和數(shù)據(jù)權(quán)限,可以與hive共享元數(shù)據(jù)、繼承數(shù)據(jù)權(quán)限,并且支持節(jié)點(diǎn)線(xiàn)性擴(kuò)展,最大支持5000節(jié)點(diǎn)10PB及以上數(shù)據(jù)。
spark sql和Hive在數(shù)據(jù)格式、數(shù)據(jù)訪(fǎng)問(wèn)方式等還保持一致,但是數(shù)據(jù)更新方式spark sql在ORC格式下支持增、刪、改、查、建議批量操作,而spark SQL依賴(lài)其他組件,比hive多個(gè)spark。想仔細(xì)了解兩者區(qū)別的,可以看一下上圖表。
第一,多租戶(hù)-可視化的多級(jí)租戶(hù)管理與企業(yè)組織結(jié)構(gòu)相匹配,簡(jiǎn)化系統(tǒng)資源分配與管理,并且可以對(duì)租戶(hù)資源使用情況進(jìn)行實(shí)時(shí)監(jiān)控。
二、異構(gòu)設(shè)備支持大內(nèi)存和標(biāo)配內(nèi)存服務(wù)器混搭集群,通過(guò)設(shè)置不同的計(jì)算資源、標(biāo)簽、YARN資源調(diào)度器,保證spark作業(yè)運(yùn)行在大內(nèi)存的節(jié)點(diǎn)上,mr作業(yè)運(yùn)行在標(biāo)配內(nèi)存的節(jié)點(diǎn)上,還有SAS盤(pán)和SATA盤(pán)服務(wù)器混搭集群可以設(shè)置不同的存儲(chǔ)資源標(biāo)簽。
三、資源靈活配置,組件之間資源調(diào)度,保證組件間資源不爭(zhēng)搶?zhuān)С职凑瞻俜直葹楦鱾€(gè)組。設(shè)置資源配額,支持資源按照時(shí)間自動(dòng)調(diào)整,不同的時(shí)間段設(shè)置不同的資源配置策略,為各種業(yè)務(wù)按照時(shí)段分配資源,實(shí)現(xiàn)資源錯(cuò)峰共享,使得我們資源利用率最大化。
四、多租戶(hù)資源調(diào)度配置原則,使易購(gòu)資源使用硬隔離,按照標(biāo)簽調(diào)度資源,不同規(guī)格、硬件使用不同標(biāo)簽、不同組件之間按照靜態(tài)資源池隔離資源,防止組件間搶占資源。
五、分級(jí)存儲(chǔ)。在客戶(hù)的價(jià)值體現(xiàn)在在易購(gòu)資源池的融合,大數(shù)據(jù)平臺(tái)支持靈活的存儲(chǔ)策略,實(shí)現(xiàn)最優(yōu)的性能和成本,提供gui維護(hù)、管理數(shù)據(jù)資產(chǎn),易管理、易運(yùn)維。
成功案例
那么成功的案例有z銀行離線(xiàn)分析平臺(tái)業(yè)務(wù)的特點(diǎn)是離線(xiàn)分析集群屬于公有集群,搭建在上海數(shù)據(jù)中心、深圳數(shù)據(jù)通過(guò)交換平臺(tái)及data state進(jìn)行數(shù)據(jù)導(dǎo)入,向上已對(duì)接十八個(gè)應(yīng)用,主要依靠Hive、spark、mr等進(jìn)行離線(xiàn)分析以及機(jī)器學(xué)習(xí),業(yè)務(wù)的負(fù)載需求為同時(shí)有加載作業(yè)和批量作業(yè)在運(yùn)行,加載及批量作業(yè)必須在時(shí)間窗口內(nèi)完成。
第二個(gè)成功案例,G移動(dòng)O域數(shù)據(jù)解析場(chǎng)景,該場(chǎng)景提供偶遇和網(wǎng)絡(luò)數(shù)據(jù)的解析、存儲(chǔ)、查詢(xún),需要能夠及時(shí)完成每天的數(shù)據(jù)解析匯總,每日數(shù)據(jù)解析匯總時(shí)限為五個(gè)小時(shí)。
第三個(gè)案例是G移動(dòng)融合計(jì)費(fèi)清單場(chǎng)景,它需要提供融合計(jì)費(fèi)清單的存儲(chǔ)、查詢(xún)及分析,對(duì)我們的性能要求是日匯總兩個(gè)小時(shí),月匯總二十四個(gè)小時(shí)。
實(shí)時(shí)流處理
隨著時(shí)代的發(fā)展,數(shù)據(jù)會(huì)越來(lái)越多,而數(shù)據(jù)的改變也是實(shí)時(shí)的,可能前一秒的數(shù)據(jù)和現(xiàn)在都不一樣,對(duì)于大數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)越實(shí)時(shí)越有價(jià)值。
流計(jì)算是針對(duì)流式數(shù)據(jù)的實(shí)時(shí)計(jì)算,實(shí)時(shí)我們從字面意思就能了解,那流式數(shù)據(jù)是什么呢?是指將數(shù)據(jù)看作數(shù)據(jù)流的形式來(lái)處理。數(shù)據(jù)流是在時(shí)間分布和數(shù)量上無(wú)限的一系列動(dòng)態(tài)數(shù)據(jù)集合體;數(shù)據(jù)記錄是數(shù)據(jù)流的最小組成單元。流式計(jì)算有著計(jì)算任務(wù)一直運(yùn)行,結(jié)果持續(xù)產(chǎn)生秒、毫秒級(jí)。必須是可編程的框架,以適應(yīng)各種業(yè)務(wù)需求,不能是寫(xiě)死的邏輯。處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬(wàn)條數(shù)據(jù)等優(yōu)勢(shì)。實(shí)時(shí)流處理通常是指對(duì)實(shí)時(shí)數(shù)據(jù)源進(jìn)行快速分析、迅速觸發(fā)下一步動(dòng)作的場(chǎng)景。
實(shí)時(shí)流處理方案架構(gòu)
實(shí)時(shí)數(shù)據(jù)對(duì)分析、處理速度要求極高,數(shù)據(jù)處理規(guī)模巨大,對(duì)cpu和內(nèi)存要求很高,但是通常數(shù)據(jù)不落地,對(duì)存儲(chǔ)量要求不高。實(shí)時(shí)處理通常通過(guò)spark streaming或者Flink任務(wù)實(shí)現(xiàn)。
但是實(shí)現(xiàn)實(shí)時(shí)流處理也是有一定的核心訴求的,比如端到端處理需達(dá)到秒級(jí)流處理平臺(tái)負(fù)責(zé)的數(shù)據(jù)采集和數(shù)據(jù)處理要在一秒內(nèi)完成,需在短時(shí)內(nèi)接收并處理大量數(shù)據(jù)記錄,吞吐量需要達(dá)到數(shù)十兆每秒每節(jié)點(diǎn)。為應(yīng)對(duì)數(shù)據(jù)源端業(yè)務(wù)數(shù)據(jù)產(chǎn)生速度會(huì)突然出現(xiàn)峰值的情形,需提供數(shù)據(jù)緩存機(jī)制等。
可靠性高:網(wǎng)絡(luò)、軟件等故障發(fā)生時(shí),需保證每條數(shù)據(jù)不丟失,數(shù)據(jù)處理不遺漏、不重復(fù)。
水平擴(kuò)展:當(dāng)系統(tǒng)處理能力出現(xiàn)瓶頸后,可通過(guò)節(jié)點(diǎn)的水平擴(kuò)展提升處理性能。
多數(shù)據(jù)源支持:支持網(wǎng)絡(luò)流、文件、數(shù)據(jù)庫(kù)表、IOT等格式的數(shù)據(jù)源。對(duì)于文件數(shù)據(jù)源,可以處理增量數(shù)據(jù)的加載。
數(shù)據(jù)權(quán)限和資源隔離:消息處理、流處理需要有數(shù)據(jù)權(quán)限控制,不同的作業(yè)、用戶(hù)可以訪(fǎng)問(wèn)、處理不同的消息和數(shù)據(jù)。多種流處理應(yīng)用之間要進(jìn)行資源控制和隔離,防止發(fā)生資源爭(zhēng)搶。
第三方工具對(duì)接:支持與第三方規(guī)則引擎、決策系統(tǒng)、實(shí)時(shí)推薦系統(tǒng)等對(duì)接。
新一代流處理引擎Flink
在實(shí)時(shí)流處理方案架構(gòu)里面,分布式流計(jì)算引擎有兩個(gè),接下來(lái)會(huì)對(duì)這兩個(gè)進(jìn)行介紹。
首先是Flink,F(xiàn)link流數(shù)據(jù)處理引擎是新一代流處理系統(tǒng),具有高吞吐、低時(shí)延、高可靠等特性,它的性能可以達(dá)到毫秒水平,同時(shí)支持多租戶(hù)資源隔離,更適合企業(yè)流處理場(chǎng)景。它的高性能體現(xiàn)在專(zhuān)門(mén)針對(duì)流處理設(shè)計(jì),支持毫秒級(jí)時(shí)延,高可靠體現(xiàn)在支持異步快照機(jī)制,將用戶(hù)作業(yè)狀態(tài)進(jìn)行備份,支持用戶(hù)作業(yè)有狀態(tài)的恢復(fù)。
第二個(gè)是spark streaming,它是spark核心api的一個(gè)擴(kuò)展,其接收實(shí)時(shí)的輸入數(shù)據(jù)流,然后將這些數(shù)據(jù)切分為批數(shù)據(jù),提供spark引擎處理,spark引擎將數(shù)據(jù)處理成最終的結(jié)果數(shù)據(jù)使用離散流,從kafka和hdfs等源獲取連續(xù)的數(shù)據(jù)流,離散流由一系列連續(xù)的彈性分布式數(shù)據(jù)集組成,每個(gè)彈性分布式數(shù)據(jù)集包含確定時(shí)間間隔的批數(shù)據(jù),任何對(duì)離散流的操作都轉(zhuǎn)換成對(duì)彈性分布式數(shù)據(jù)集的操作。
使用DStream ( Discretized Stream,離散流)從Kafka和HDFS等源獲取連續(xù)的數(shù)據(jù)流,DStreams由一系列連續(xù)的RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)組成,每個(gè)RDD包含確定時(shí)間間隔的批數(shù)據(jù),任何對(duì)DStreams的操作都轉(zhuǎn)換成對(duì)RDD的操作。
流處理引擎比較
Flink和spark stream在事件處理方式、時(shí)延、容錯(cuò)機(jī)制和編程接口有著不同,但是什么時(shí)候使用不同的流處理引擎呢?
推薦原則就是優(yōu)先推薦Flink,實(shí)時(shí)性要求不高的場(chǎng)景可以推薦spark streaming。
消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布。在消息中間件內(nèi)有一個(gè)kafka,kafka是一個(gè)高吞吐分布式、基于發(fā)布、訂閱的消息系統(tǒng),利用kafka技術(shù),可在X86 pc server上搭建起大規(guī)模消息系統(tǒng),用作實(shí)時(shí)流處理中的消息緩存,最常見(jiàn)的用途是用來(lái)作為實(shí)時(shí)數(shù)據(jù)源的緩存,上圖涉及到kafka的一些基本概念。block是緩存代理kafka集群包含的一個(gè)或多個(gè)服務(wù)實(shí)例block,一個(gè)block對(duì)應(yīng)一臺(tái)服務(wù)器。producer消息和數(shù)據(jù)生產(chǎn)者,用來(lái)向kafka的一個(gè)topic發(fā)布消息的客戶(hù)端,consumer消息和數(shù)據(jù)消費(fèi)者用來(lái)訂閱topic并處理其發(fā)布的消息的客戶(hù)端。
數(shù)據(jù)緩存我們使用的是高速緩存內(nèi)存庫(kù)redis。redis是一個(gè)高性能的key-value內(nèi)存數(shù)據(jù)庫(kù),適合于作為系統(tǒng)中的cache或者消息隊(duì)列,它有著性能高、豐富的數(shù)據(jù)類(lèi)型支持,支持主從復(fù)制同步等特性,典型案例是風(fēng)控平臺(tái)案例。
該項(xiàng)目需要風(fēng)控報(bào)警時(shí)效性要求較高,需實(shí)時(shí)報(bào)警,系統(tǒng)處理能力可擴(kuò)展,需平穩(wěn)度過(guò)雙十一等交易量爆發(fā)增長(zhǎng)的時(shí)段。解決方案則是根據(jù)風(fēng)控規(guī)則抽象實(shí)時(shí)變量、批次變量、擴(kuò)展變量和規(guī)則邏輯。實(shí)時(shí)變量通過(guò)CQL動(dòng)定義生成拓?fù)湓诹魈幚硐到y(tǒng)中實(shí)時(shí)計(jì)算。典型例子,本次交易金額、商戶(hù)、MCC碼、批次變量通過(guò)hive離線(xiàn)跑批計(jì)算并存入HBase系統(tǒng),采用雙系統(tǒng)保障可靠性,采用最快的結(jié)果作為有效輸出,雙系統(tǒng)各自使用單獨(dú)的硬件。
四、數(shù)據(jù)湖治理中心(DGC)
DAYU數(shù)據(jù)運(yùn)營(yíng)平臺(tái)
企業(yè)發(fā)展到一定階段,出現(xiàn)多個(gè)事業(yè)部,每個(gè)事業(yè)部都有各自數(shù)據(jù),事業(yè)部之間的數(shù)據(jù)往往都各自存儲(chǔ)、各自定義,每個(gè)事業(yè)部的數(shù)據(jù)就像一個(gè)個(gè)孤島一樣,無(wú)法或者極其困難和企業(yè)內(nèi)部的其他數(shù)據(jù)進(jìn)行連接互動(dòng)。我們把這樣的情況稱(chēng)為數(shù)據(jù)孤島,簡(jiǎn)單說(shuō)就是數(shù)據(jù)間缺乏關(guān)聯(lián)性、數(shù)據(jù)庫(kù)彼此無(wú)法兼容,這就會(huì)造成資源分散、數(shù)據(jù)不通、應(yīng)用孤立的現(xiàn)象,從而導(dǎo)致需求落地慢、業(yè)務(wù)監(jiān)管難、用戶(hù)體驗(yàn)差,嚴(yán)重制約了企業(yè)數(shù)字化發(fā)展。
那么我們需要達(dá)到一個(gè)什么樣的能力才能解決數(shù)字孤島這個(gè)現(xiàn)象呢?
首先我們要有可搜索的數(shù)據(jù)目錄,能夠很快地找到我們所需要的數(shù)據(jù);
其次,我們要能管得住數(shù)據(jù),并且敢去使用數(shù)據(jù),能夠讓數(shù)據(jù)使用可控可追溯。
最后,我們讓這些重要的數(shù)據(jù)能夠應(yīng)用到我們的企業(yè)當(dāng)中去才是最重要的。
那么有沒(méi)有一個(gè)平臺(tái)能夠達(dá)到這樣的能力,從而解決數(shù)字孤島現(xiàn)象呢?華為云DAYU平臺(tái)就能夠達(dá)到這樣的能力。
DAYU平臺(tái),面向企業(yè)數(shù)字化運(yùn)營(yíng)訴求,提供一站式智能數(shù)據(jù)管理能力,幫助企業(yè)快速構(gòu)建從數(shù)據(jù)接入到數(shù)據(jù)分析的端到端智能數(shù)據(jù)系統(tǒng),消除數(shù)據(jù)孤島,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),加快數(shù)據(jù)變現(xiàn),實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。
DAYU平臺(tái)就是提供給數(shù)據(jù)運(yùn)營(yíng)人員、業(yè)務(wù)運(yùn)營(yíng)人員的一站式、端到端的數(shù)據(jù)運(yùn)營(yíng)與數(shù)據(jù)治理、平臺(tái)與方案,幫忙企業(yè)快速。構(gòu)建數(shù)據(jù)運(yùn)營(yíng)能力,產(chǎn)出清潔透明、智慧的數(shù)據(jù),同時(shí)讓數(shù)據(jù)可以隨需獲取、敏捷自助,讓數(shù)據(jù)最大化地發(fā)揮它的價(jià)值,推動(dòng)企業(yè)業(yè)務(wù)創(chuàng)新與變革以及人工智能的發(fā)展。
這個(gè)名字聽(tīng)起來(lái)很像是三過(guò)家門(mén)而不入的大禹,的確命名含義就像是大禹治水一樣,幫助企業(yè)進(jìn)行數(shù)據(jù)治理與運(yùn)營(yíng),最終讓數(shù)據(jù)變?yōu)槠髽I(yè)創(chuàng)新的新能源,讓業(yè)務(wù)豁然開(kāi)朗。
在上圖中我們可以看出來(lái),大宇平臺(tái)只需要一個(gè)管理中心就可以實(shí)現(xiàn)數(shù)據(jù)集成、規(guī)范設(shè)計(jì)、數(shù)據(jù)開(kāi)發(fā)等功能,可以實(shí)現(xiàn)數(shù)據(jù)的可視化、自動(dòng)化、智能化。無(wú)論是開(kāi)發(fā)、治理、服務(wù)還是資產(chǎn),我們都可以進(jìn)行敏捷的開(kāi)發(fā)和治理。拖拽式開(kāi)發(fā),端到端數(shù)據(jù)鏈路編排和監(jiān)控、業(yè)務(wù)指標(biāo)監(jiān)控,實(shí)時(shí)了解業(yè)務(wù)指標(biāo)、數(shù)據(jù)質(zhì)量、配置質(zhì)量檢查規(guī)則、在線(xiàn)監(jiān)控、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)可視化、敏捷配置數(shù)據(jù)可視化大屏。
DAYU不僅可以從用戶(hù)的角度來(lái)進(jìn)行數(shù)據(jù)的開(kāi)發(fā)和治理,還可以從數(shù)據(jù)的視角進(jìn)行一站式的開(kāi)發(fā)和治理,可以基于業(yè)務(wù)建模、快速檢索、定位數(shù)據(jù),可以一站式作業(yè)、調(diào)度、監(jiān)控、在線(xiàn)數(shù)據(jù)質(zhì)量檢查,還可以消除數(shù)據(jù)冗余、避免數(shù)據(jù)重復(fù)。
說(shuō)了這么多,那么到底什么地方才可以用到DAYU呢?
首先第一個(gè)場(chǎng)景就是數(shù)據(jù)治理。現(xiàn)在企業(yè)面臨的痛點(diǎn)是各業(yè)務(wù)部門(mén)數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)來(lái)龍去脈不清楚、質(zhì)量得不到控制,數(shù)據(jù)開(kāi)發(fā)找不到需要的數(shù)據(jù),導(dǎo)致過(guò)多冗余。需要有一個(gè)平臺(tái)能夠制定統(tǒng)一的標(biāo)準(zhǔn),控制數(shù)據(jù)質(zhì)量,保證一致性、完整性、有效性、快速定位數(shù)據(jù),避免冗余存儲(chǔ),DAYU可以對(duì)多種大數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)的管理,滿(mǎn)足多種數(shù)倉(cāng)的需求,并且如果我們?nèi)藬?shù)沒(méi)有那么多怎么辦呢?也可以借助人工智能、機(jī)器學(xué)習(xí)進(jìn)行智能輔助治理。
第二個(gè)場(chǎng)景就是數(shù)據(jù)分析所面臨的痛點(diǎn)是數(shù)據(jù)準(zhǔn)備耗費(fèi)大量人力投入計(jì)算、存儲(chǔ)、資源不易擴(kuò)展,無(wú)法應(yīng)對(duì)數(shù)據(jù)量變化,需要達(dá)到異構(gòu)數(shù)據(jù)快速集成、快速構(gòu)建數(shù)據(jù)流程、支持高性能數(shù)據(jù)計(jì)算、資源彈性伸縮,快速應(yīng)對(duì)數(shù)據(jù)和業(yè)務(wù)變化。DAYU支持百萬(wàn)級(jí)別的任務(wù)調(diào)度,并且五分鐘就能分析,半小時(shí)內(nèi)完成計(jì)算,極大地提升了我們的效率和速度。
現(xiàn)實(shí)生活中,我們也可以對(duì)我們的交通數(shù)據(jù)進(jìn)行分析,比如說(shuō)哪些攝像頭捕捉到了有人違反交通規(guī)則,或者哪個(gè)地方的紅綠燈時(shí)間應(yīng)該長(zhǎng)一些或者短一些,最后通過(guò)分析的數(shù)據(jù)進(jìn)行應(yīng)用。
其次是診斷平臺(tái)指標(biāo)開(kāi)發(fā)流程,基于交通行業(yè)pipeline醬、行業(yè)算子主題模型,快速構(gòu)建指標(biāo)計(jì)算流程,對(duì)電警數(shù)據(jù)、浮動(dòng)車(chē)數(shù)據(jù)以及路段信息進(jìn)行分析。
總結(jié):
隨著數(shù)字劃時(shí)代的到來(lái),社會(huì)生產(chǎn)生活產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)量越來(lái)越大,種類(lèi)越來(lái)越多、企業(yè)迫切對(duì)大量數(shù)據(jù)的背后價(jià)值進(jìn)行挖掘、華為云大數(shù)據(jù)服務(wù)幫助企業(yè)構(gòu)筑從數(shù)據(jù)接入、存儲(chǔ)、計(jì)算和分析的全生命周期大數(shù)據(jù)解決方案,幫助企業(yè)客戶(hù)進(jìn)一步挖掘數(shù)據(jù)價(jià)值,快速完成數(shù)字化轉(zhuǎn)型,激發(fā)制造企業(yè)的創(chuàng)新活力、發(fā)展?jié)摿娃D(zhuǎn)型動(dòng)力。華為云為企業(yè)提供大數(shù)據(jù)處理、分級(jí)挖掘的平臺(tái),幫助企業(yè)快速發(fā)覺(jué)數(shù)據(jù)價(jià)值,同時(shí)華為云具備免維護(hù)、免部署、低成本、低門(mén)檻、彈性敏捷等特點(diǎn)。
spark 大數(shù)據(jù)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。