【云駐共創(chuàng)】一文告訴你華為云上大數(shù)據(jù)處理與分析(詳細(xì))

      網(wǎng)友投稿 1581 2025-04-02

      前言


      本章主要講述華為云大數(shù)據(jù)解決方案,云上大數(shù)據(jù)處理與分析方法。介紹了華為云EI主流大數(shù)據(jù)服務(wù),如MRS服務(wù)、DWS服務(wù)和CSS服務(wù)。由此引出兩種常見(jiàn)的大數(shù)據(jù)解決方案,離線(xiàn)處理和實(shí)時(shí)流處理,并對(duì)它們的架構(gòu)優(yōu)勢(shì)、實(shí)現(xiàn)原理、應(yīng)用分析與案例場(chǎng)景進(jìn)行講解。最后對(duì)DAYU數(shù)據(jù)運(yùn)營(yíng)平臺(tái)進(jìn)行了介紹。

      目標(biāo)

      描述主流華為云EI服務(wù)

      區(qū)分離線(xiàn)處理和實(shí)時(shí)流處理的方案架構(gòu)和應(yīng)用場(chǎng)景

      了解DAYU數(shù)據(jù)運(yùn)營(yíng)平臺(tái)的功能

      一、大數(shù)據(jù)技術(shù)發(fā)展趨勢(shì)

      現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá)、信息流通,人們之間的交流越來(lái)越密切,生活也越來(lái)越方便。大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。大數(shù)據(jù)到底有多大?一組為互聯(lián)網(wǎng)上一天的數(shù)據(jù)告訴我們,一天之中互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿(mǎn)1.68億張DVD,發(fā)出的郵件有2940億封之多,相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量。發(fā)出的社區(qū)帖子達(dá)兩百萬(wàn)個(gè),相當(dāng)于時(shí)代雜志770年的文字量。賣(mài)出的手機(jī)為37.8萬(wàn)臺(tái),高于全球每天出生的嬰兒數(shù)量37.1萬(wàn)。截止到2012年,數(shù)據(jù)量已經(jīng)從TB級(jí)別越升到PB、EB乃至ZB級(jí)別。

      國(guó)際數(shù)據(jù)公司IDC的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.94ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年的數(shù)據(jù)量更是高達(dá)1.8ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類(lèi)歷史上說(shuō)過(guò)的所有話(huà)的數(shù)據(jù)量大約是五EB。IBM的研究稱(chēng),整個(gè)人類(lèi)文明所獲得的全部數(shù)據(jù)中,有百分之九十是過(guò)去兩年產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。每一天全世界會(huì)上傳超過(guò)五億張圖片,每分鐘就有20小時(shí)時(shí)長(zhǎng)的視頻被分享。然而即使是人們每天創(chuàng)造的全部信息,包括語(yǔ)音通話(huà)、電子郵件和信息在內(nèi)的各種通信,以及上傳的全部圖片、視頻與音樂(lè),其信息量也無(wú)法匹及每一天所創(chuàng)造出的關(guān)于人們自身的數(shù)字信息量。

      現(xiàn)在全球大數(shù)據(jù)共有六個(gè)發(fā)展趨勢(shì),大數(shù)據(jù)戰(zhàn)略化趨勢(shì)顯著,數(shù)據(jù)開(kāi)放、共享成為核心重點(diǎn)項(xiàng)目帶動(dòng)、創(chuàng)新發(fā)展、應(yīng)用驅(qū)動(dòng)、數(shù)據(jù)價(jià)值挖掘、數(shù)據(jù)安全防護(hù)日益加強(qiáng),大數(shù)據(jù)生態(tài)體系不斷完善。

      什么是大數(shù)據(jù)

      那么到底什么是大數(shù)據(jù)呢?最早提出大數(shù)據(jù)時(shí)代到來(lái)的是全球知名咨詢(xún)公司麥肯錫,麥肯錫城數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素,人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。大數(shù)據(jù)現(xiàn)在是一個(gè)很熱門(mén)的詞匯,因?yàn)殡S著信息化和智能化的發(fā)展,人們的一言一行可以更容易地通過(guò)電子設(shè)備形成一條條數(shù)據(jù)進(jìn)行記錄和收集。比較常見(jiàn)的是我們使用的手機(jī)、手環(huán)等終端設(shè)備,數(shù)據(jù)本身沒(méi)有特別的作用,但是能從數(shù)據(jù)里面發(fā)現(xiàn)信息,總結(jié)規(guī)律,那么這些數(shù)據(jù)就非常有價(jià)值了。

      舉個(gè)簡(jiǎn)單的例子,我們常用的購(gòu)物軟件、新聞客戶(hù)端會(huì)收集我們的瀏覽數(shù)據(jù),然后對(duì)這些數(shù)據(jù)進(jìn)行分析,下次就會(huì)將我們感興趣的內(nèi)容推送過(guò)來(lái)。我們可能會(huì)越來(lái)越喜歡這款產(chǎn)品,就像淘寶里的猜你喜歡。由于智能終端的普及越來(lái)越多的人可以使用到這些產(chǎn)品,這時(shí)候收集到的數(shù)據(jù)和種類(lèi)也越來(lái)越多。傳統(tǒng)的系統(tǒng)對(duì)這些龐大的數(shù)據(jù)力不從心,解決大數(shù)據(jù)問(wèn)題的技術(shù)也就應(yīng)運(yùn)而生了。大數(shù)據(jù)的挑戰(zhàn)也可以用4V來(lái)解釋?zhuān)瑪?shù)據(jù)量越來(lái)越大、數(shù)據(jù)種類(lèi)越來(lái)越多、數(shù)據(jù)產(chǎn)生的速度越來(lái)越快、數(shù)據(jù)價(jià)值密度低。

      那我們的數(shù)據(jù)拿過(guò)來(lái)就可以使用了嗎?答案當(dāng)然是不可以的,我們要經(jīng)過(guò)如下八個(gè)步驟才可以將數(shù)據(jù)從收集到應(yīng)用。數(shù)據(jù)在獲取、預(yù)處理、存儲(chǔ)、分析等各個(gè)環(huán)節(jié)都有相關(guān)的模型,最重要的是兩個(gè)模型,數(shù)據(jù)組織模型和數(shù)據(jù)分析模型。正是因?yàn)閭鹘y(tǒng)的數(shù)據(jù)分析技術(shù)有一定的劣勢(shì),我們才會(huì)選擇改變。

      那么傳統(tǒng)的數(shù)據(jù)分析技術(shù)有哪些缺點(diǎn)呢?首先就是受限的數(shù)據(jù)格式與操作。數(shù)據(jù)倉(cāng)庫(kù)是一對(duì)具備良好結(jié)構(gòu)定義的數(shù)據(jù),進(jìn)行統(tǒng)計(jì)查詢(xún),針對(duì)半結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù)的操作支持不好。其次是容量與性能不足,基于share everything架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)受限于共享存儲(chǔ)系統(tǒng)的IO瓶頸、擴(kuò)展性與吞吐量不足。接下來(lái)是成本高昂,成熟的商業(yè)數(shù)據(jù)倉(cāng)庫(kù)價(jià)格昂貴,type data單節(jié)點(diǎn)3TB數(shù)據(jù)150人民幣。最后是挖掘分析效率低下,使用專(zhuān)業(yè)挖掘工具將數(shù)據(jù)從倉(cāng)庫(kù)中導(dǎo)出后分析,大數(shù)據(jù)場(chǎng)景下無(wú)法實(shí)施。

      大數(shù)據(jù)平臺(tái)架構(gòu)發(fā)展趨勢(shì)

      我們的大數(shù)據(jù)平臺(tái)架構(gòu)發(fā)展分為三個(gè)階段,首先是我們單一架構(gòu)的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù),它面臨一些挑戰(zhàn):

      一、計(jì)算與存儲(chǔ)分離,IO成為瓶頸,缺乏線(xiàn)性擴(kuò)展能力;

      二、實(shí)時(shí)性不夠;

      三、數(shù)據(jù)處理的表達(dá)能力弱;

      四、迭代計(jì)算模型無(wú)法支持復(fù)雜計(jì)算;

      五、不支持非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。

      接下來(lái)出現(xiàn)了分離架構(gòu),它的并行批量處理,Nosql解決了大和雜的問(wèn)題。MPP數(shù)據(jù)倉(cāng)庫(kù)解決了大和快的問(wèn)題,流處理引擎解決了快和雜的問(wèn)題。最后融合架構(gòu)誕生了,能夠解決我們所遇到的挑戰(zhàn)。它的特點(diǎn)是統(tǒng)一持久層。數(shù)據(jù)減少移動(dòng)、統(tǒng)一管理,實(shí)現(xiàn)資源共享和管理自動(dòng)化。同一數(shù)據(jù)可同時(shí)進(jìn)行流處理、批處理以及查詢(xún)多種計(jì)算模型。

      華為云EI的發(fā)展歷程

      在了解了大數(shù)據(jù)平臺(tái)架構(gòu)的發(fā)展以后,我們來(lái)看看華為在EI方面,尤其是大數(shù)據(jù)領(lǐng)域的發(fā)展歷程。在2002年的時(shí)候,華為就開(kāi)始以傳統(tǒng)BI技術(shù)為起點(diǎn)來(lái)進(jìn)行大數(shù)據(jù)研究,2011年融入了AI能力,推出了電信大數(shù)據(jù)方案。二零一五年時(shí)擁有核心項(xiàng)目PMC,推出了企業(yè)大數(shù)據(jù)平臺(tái),至2017年推出了EI云服務(wù)。

      在進(jìn)入云計(jì)算時(shí)代之后,華為云在EI大數(shù)據(jù)領(lǐng)域全面發(fā)力,在各個(gè)層面上推出了眾多的大數(shù)據(jù)服務(wù)。在統(tǒng)一存儲(chǔ)層,華為有OBS、HDFS服務(wù),在數(shù)據(jù)湖計(jì)算層,華為有MRS、DWS等服務(wù),并且有待于數(shù)據(jù)運(yùn)營(yíng)平臺(tái)。在使用以上華為云服務(wù)的基礎(chǔ)上,大數(shù)據(jù)國(guó)內(nèi)競(jìng)爭(zhēng)力第一、架構(gòu)開(kāi)放,可以平滑遷移cloudera、AWS等友商大數(shù)據(jù)服務(wù)。數(shù)據(jù)倉(cāng)庫(kù)性能業(yè)界領(lǐng)先,數(shù)據(jù)庫(kù)分析和BI場(chǎng)景可平滑搬遷,oracle、GP、TeraAata一站式敏捷大數(shù)據(jù)開(kāi)發(fā)治理、數(shù)據(jù)中臺(tái)、行業(yè)模板、算子,加快數(shù)據(jù)變現(xiàn),云上大數(shù)據(jù)加鯤鵬,性?xún)r(jià)比提升百分之三十以上。

      二、華為云大數(shù)據(jù)服務(wù)

      大數(shù)據(jù)環(huán)境搭建痛點(diǎn)

      大數(shù)據(jù)服務(wù)社會(huì)生產(chǎn)生活,產(chǎn)生的數(shù)據(jù)量越來(lái)越多、數(shù)據(jù)種類(lèi)越來(lái)越多、數(shù)據(jù)產(chǎn)生的速度越來(lái)越快,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù),比如說(shuō)單機(jī)存儲(chǔ)、關(guān)系數(shù)據(jù)庫(kù)已經(jīng)無(wú)法解決這些新的大數(shù)據(jù)問(wèn)題,大數(shù)據(jù)上云已經(jīng)成了必然選擇。既然大數(shù)據(jù)技術(shù)上云,那當(dāng)然是因?yàn)閭鹘y(tǒng)的大數(shù)據(jù)環(huán)境搭建有一定的痛點(diǎn),比如說(shuō)成本高,需要提前搶購(gòu)設(shè)備,并且如果長(zhǎng)時(shí)間不使用環(huán)境的話(huà),設(shè)備將會(huì)被限制,不靈活。傳統(tǒng)的設(shè)備不支持?jǐn)U容與縮容,在業(yè)務(wù)量發(fā)生變化時(shí)不能進(jìn)行改變,導(dǎo)致環(huán)境不夠使用或者過(guò)于浪費(fèi),周期長(zhǎng)。

      Hadoop是大數(shù)據(jù)常常聽(tīng)說(shuō)的一個(gè)詞,它的系統(tǒng)安裝和配置前需要進(jìn)行配置環(huán)境變量準(zhǔn)備linux系統(tǒng)需要很多繁雜的事情,導(dǎo)致耗費(fèi)我們大量的時(shí)間難運(yùn)維。在我們使用的過(guò)程中,機(jī)器總是會(huì)發(fā)生故障,那么運(yùn)行維護(hù)也是一大需要解決的難點(diǎn)。那么怎樣才能解決我們所說(shuō)的這些困難呢?

      華為云服務(wù)來(lái)幫忙,大數(shù)據(jù)計(jì)算服務(wù)、mapreduce服務(wù),它有著即開(kāi)即用,也就是說(shuō)我們?nèi)绻枰褂肏adoop,直接一鍵部署即可,靈活方便,計(jì)算和存儲(chǔ)進(jìn)行分離,便捷管理,管理控制臺(tái)直接進(jìn)行可視化的管理,使我們的管理不再艱難。彈性伸縮可以根據(jù)業(yè)務(wù)情況彈性伸縮所需的資源,這些特點(diǎn)完美的解決了傳統(tǒng)大數(shù)據(jù)所面臨的問(wèn)題。

      華為云MRS服務(wù)架構(gòu)

      MRS是一個(gè)在華為云上部署和管理Hadoop系統(tǒng)的服務(wù),一鍵即可部署Hadoop集群,提供租戶(hù)完全可控的企業(yè)級(jí)大數(shù)據(jù)集群云服務(wù),輕松運(yùn)行Hadoop、Spark、HBase、kafka等大數(shù)據(jù)組件。所以說(shuō)MRS并不是單指mapreduce,MRS服務(wù)擁有強(qiáng)大的Hadoop內(nèi)核團(tuán)隊(duì),基于華為FusionInsight大數(shù)據(jù)企業(yè)級(jí)平臺(tái)構(gòu)筑,歷經(jīng)行業(yè)數(shù)萬(wàn)節(jié)點(diǎn)部署量的考驗(yàn),提供多級(jí)用戶(hù)SLA保障。

      大家看一下上圖MRS集群類(lèi)型又分為三類(lèi),分析集群是用來(lái)做離線(xiàn)數(shù)據(jù)分析的,流式集群是用來(lái)做流處理任務(wù),混合集群則既可以用來(lái)做離線(xiàn)數(shù)據(jù)分析,也可以用來(lái)做流處理任務(wù)。MRS在云上部署并托管了Apache? Hadoop集群,為大數(shù)據(jù)處理分析場(chǎng)景提供高可靠性、高可用性的服務(wù)。

      MRS使用Fusionlnsight Hadoop商業(yè)發(fā)行版。包含hdfs、MapReduce和YARN組件,這三個(gè)組件分別有不一樣的功能。hdfs是Hadoop的分布式文件系統(tǒng),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)可靠的分布式讀寫(xiě)。MapReduce是Hadoop的核心,是谷歌提出的一個(gè)軟件架構(gòu),用于大于1TB的大規(guī)模數(shù)據(jù)集的并行運(yùn)算,YARN可以實(shí)現(xiàn)一個(gè)Hadoop集群的集群共享,可伸縮性和可靠性,并消除早期MapReduce框架中的job Tracker性能瓶頸。接下來(lái)會(huì)對(duì)這三個(gè)組件分別進(jìn)行介紹。

      HDFS是將大型文件切分為相同大小的塊,并放置若干份副本到存儲(chǔ)節(jié)點(diǎn),data node應(yīng)對(duì)單一節(jié)點(diǎn)失效的場(chǎng)景。客戶(hù)端讀文件是到name node獲取文件塊的具體存儲(chǔ)位置,而后直接從data node讀取,使用并行的方式最大化存儲(chǔ)吞吐量。

      MapReduce來(lái)源于兩個(gè)核心概念,map映射和reduce化解及他們的主要思想都是從函數(shù)式編程語(yǔ)言借來(lái)的,還有從矢量編程語(yǔ)言借來(lái)的特性。當(dāng)前的軟件實(shí)現(xiàn)是指一個(gè)map函數(shù)用來(lái)把一組建制隊(duì)映射成一組新的建制隊(duì),指定并發(fā)的reduce函數(shù),用來(lái)保證所有映射的建制隊(duì)中的每一個(gè)共享相同的建組。

      YARN是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度。在圖中有兩個(gè)客戶(hù)端向YARN提交任務(wù),藍(lán)色表示一個(gè)任務(wù)流程,棕色表示另一個(gè)任務(wù)流程。首先client提交任務(wù),resource manager接收到任務(wù),然后啟動(dòng)并監(jiān)控起來(lái)的第一個(gè)container,也就是app mstr,它會(huì)通知node manager管理資源并啟動(dòng)其他container任務(wù)最終是運(yùn)行在container當(dāng)中。

      MRS應(yīng)用場(chǎng)景

      使用MRS這個(gè)服務(wù)自然是因?yàn)樯钪袝?huì)有場(chǎng)景要使用到。MapReduce適合做大規(guī)模數(shù)據(jù)集的離線(xiàn)批處理計(jì)算任務(wù)分而置之,子任務(wù)相對(duì)獨(dú)立。MapReduce不適合做實(shí)時(shí)的交互式計(jì)算,要求快速響應(yīng)低時(shí)延,要求快速響應(yīng)低延遲,比如sql查詢(xún)、流式計(jì)算、實(shí)時(shí)分析。

      第一個(gè)場(chǎng)景就是海量數(shù)據(jù)分析。海量數(shù)據(jù)分析是現(xiàn)代大數(shù)據(jù)系統(tǒng)中的主要場(chǎng)景,通常企業(yè)會(huì)包含多種數(shù)據(jù)源,接入后需要對(duì)數(shù)據(jù)進(jìn)行ETL處理,形成模型化數(shù)據(jù),以便提供給各個(gè)業(yè)務(wù)模塊進(jìn)行分析梳理。這類(lèi)業(yè)務(wù)通常有以下特點(diǎn),對(duì)執(zhí)行實(shí)時(shí)性要求不高,作業(yè)執(zhí)行時(shí)間在數(shù)十分鐘到小時(shí)級(jí)別,數(shù)據(jù)量巨大、數(shù)據(jù)來(lái)源和格式多種多樣。例如在環(huán)保行業(yè)中,可以將天氣數(shù)據(jù)存儲(chǔ)在OBS中,定期轉(zhuǎn)儲(chǔ)到HDFS中進(jìn)行批量分析。在一小時(shí)內(nèi),MRS可以完成10T的天氣數(shù)據(jù)分析。該場(chǎng)景下MRS有以下優(yōu)勢(shì):

      低成本利用OBS實(shí)現(xiàn)低成本存儲(chǔ)海量數(shù)據(jù)分析,利用Hive實(shí)現(xiàn)TB或PB級(jí)的數(shù)據(jù)分析。可視化的導(dǎo)入、導(dǎo)出工具,通過(guò)可視化導(dǎo)入、導(dǎo)出工具loader將數(shù)據(jù)導(dǎo)出到dws,完成BI分析。

      第二個(gè)是海量數(shù)數(shù)據(jù)存儲(chǔ)。用戶(hù)擁有大量結(jié)構(gòu)化數(shù)據(jù)后,通常需要提供基于索引的準(zhǔn)實(shí)時(shí)查詢(xún)能力,例如在車(chē)聯(lián)網(wǎng)行業(yè),某車(chē)企將數(shù)據(jù)儲(chǔ)存在HBase中。以支持PB級(jí)別的數(shù)據(jù)存儲(chǔ)和毫秒級(jí)的數(shù)據(jù)詳單查詢(xún)。該場(chǎng)景下MRS有以下優(yōu)勢(shì):實(shí)時(shí)利用kafka實(shí)現(xiàn)海量汽車(chē)的消息實(shí)時(shí)接入,海量數(shù)據(jù)存儲(chǔ),利用HBase實(shí)現(xiàn)海量數(shù)據(jù)存儲(chǔ),并實(shí)現(xiàn)毫秒級(jí)數(shù)據(jù)查詢(xún)、分布式數(shù)據(jù)查詢(xún),利用spark實(shí)現(xiàn)海量數(shù)據(jù)的分析查詢(xún)。

      第三個(gè)是低時(shí)延流式處理。實(shí)時(shí)數(shù)據(jù)處理通常用于異常檢測(cè)、欺詐識(shí)別、基于規(guī)則告警、業(yè)務(wù)流程監(jiān)控等場(chǎng)景,在數(shù)據(jù)輸入系統(tǒng)的過(guò)程中對(duì)數(shù)據(jù)進(jìn)行處理。例如在梯聯(lián)網(wǎng)行業(yè),智能電梯的數(shù)據(jù)實(shí)時(shí)傳入到MRS的流式集群中進(jìn)行實(shí)時(shí)報(bào)警。該場(chǎng)景下MRS有以下優(yōu)勢(shì)。實(shí)時(shí)數(shù)據(jù)采集,利用flow實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)采集,并提供豐富的采集和存儲(chǔ)連接方式。海量的數(shù)據(jù)源接入,利用kafka實(shí)現(xiàn)萬(wàn)級(jí)別的電梯數(shù)據(jù)的實(shí)時(shí)接入。理論案例已經(jīng)分析過(guò)了,那么是否也有成功的現(xiàn)實(shí)案例呢?

      某車(chē)企遷移線(xiàn)下大數(shù)據(jù)平臺(tái)到云上,遷移的方案是歷史歸檔所有數(shù)據(jù),包括HFile和backup文件,通過(guò)DES移近一個(gè)月的HBest數(shù)據(jù)通過(guò)打快照,通過(guò)CDM服務(wù)走專(zhuān)線(xiàn)遷移,對(duì)于被HBas集群的匯總數(shù)據(jù)通過(guò)kafka轉(zhuǎn)發(fā)到線(xiàn)上進(jìn)行遷移,冷、熱數(shù)據(jù)分階段搬遷,服務(wù)零中斷,這個(gè)整體云上遷移表現(xiàn)很好。線(xiàn)下系統(tǒng),零業(yè)務(wù)代碼改動(dòng),快速完成業(yè)務(wù)搬遷、業(yè)務(wù)數(shù)據(jù)在線(xiàn)遷移、業(yè)務(wù)不中斷,七天內(nèi)完成上百T數(shù)據(jù)遷移,并且擁有華為專(zhuān)業(yè)技術(shù)團(tuán)隊(duì)的運(yùn)維保障能力。

      DWS技術(shù)思想

      一個(gè)大數(shù)據(jù)計(jì)算服務(wù),大家是否已經(jīng)對(duì)華為云大數(shù)據(jù)有了一定的了解呢?接下來(lái)學(xué)習(xí)另外一個(gè)大數(shù)據(jù)計(jì)算服務(wù),DWS數(shù)據(jù)倉(cāng)庫(kù)服務(wù),相信大家能夠?qū)Υ髷?shù)據(jù)服務(wù)更加了解。數(shù)據(jù)倉(cāng)庫(kù)服務(wù)是一種基于公有云基礎(chǔ)架構(gòu)和平臺(tái)的在線(xiàn)數(shù)據(jù)處理數(shù)據(jù)庫(kù),采用MPP。MPP即大規(guī)模并行處理。在數(shù)據(jù)庫(kù)非共享集群中,每個(gè)節(jié)點(diǎn)都有獨(dú)立的磁盤(pán)存儲(chǔ)系統(tǒng)和內(nèi)存系統(tǒng),業(yè)務(wù)數(shù)據(jù)根據(jù)數(shù)據(jù)庫(kù)模型和應(yīng)用特點(diǎn)劃分到各個(gè)節(jié)點(diǎn)上,每臺(tái)數(shù)據(jù)節(jié)點(diǎn)通過(guò)專(zhuān)用網(wǎng)絡(luò)或者商業(yè)網(wǎng)絡(luò)互相連接,彼此協(xié)同計(jì)算。作為整體數(shù)據(jù)庫(kù)服務(wù),非共享數(shù)據(jù)庫(kù)集群有完全的可伸縮性、高可用、高性能、優(yōu)秀的性?xún)r(jià)比、資源共享等優(yōu)勢(shì)。MPP架構(gòu)更適合OLAP系統(tǒng)的處理引擎。

      DWS是一種基于公有云基礎(chǔ)架構(gòu)和平臺(tái)的在線(xiàn)數(shù)據(jù)處理數(shù)據(jù)庫(kù),提供即開(kāi)即用、可擴(kuò)展且完全托管的分析型數(shù)據(jù)庫(kù)服務(wù),如下是它的架構(gòu),應(yīng)用層應(yīng)用只需做少量改動(dòng)即可向DWS平滑遷移接口。一個(gè)DWS集群由多個(gè)在相同子網(wǎng)中的相同規(guī)格的節(jié)點(diǎn)組成,共同提供服務(wù)集群的每個(gè)DN。負(fù)責(zé)存儲(chǔ)數(shù)據(jù),其存儲(chǔ)介質(zhì)是磁盤(pán)。協(xié)調(diào)節(jié)點(diǎn)負(fù)責(zé)接收來(lái)自應(yīng)用的訪問(wèn)請(qǐng)求,并向客戶(hù)端返回執(zhí)行結(jié)果。此外,協(xié)調(diào)節(jié)點(diǎn)還負(fù)責(zé)分解任務(wù)并調(diào)度任務(wù)分片,在各DN上并行執(zhí)行,自動(dòng)數(shù)據(jù)備份,支持將集群快照自動(dòng)備份到對(duì)象存儲(chǔ)服務(wù)obs中,方便利用業(yè)務(wù)空閑期對(duì)集群做周期備份,以保證集群異常后的數(shù)據(jù)恢復(fù)。快照是DWS集群在某一時(shí)間點(diǎn)的完整備份,記錄了這一時(shí)刻指定集群的所有配置數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)。工具鏈提供了數(shù)據(jù)并行加載工具GDS、socket語(yǔ)法遷移工具、sql開(kāi)發(fā)工具、data studio,并支持通過(guò)控制臺(tái)對(duì)集群進(jìn)行運(yùn)維監(jiān)控。

      DWS產(chǎn)品優(yōu)勢(shì)

      了解了一個(gè)服務(wù)后,不可避免的又要從優(yōu)勢(shì)中了解為什么要使用這個(gè)服務(wù)了。

      首先是高可靠,采用了冗余的數(shù)據(jù)集,使得我們的系統(tǒng)不會(huì)出現(xiàn)單點(diǎn)故障,如果主節(jié)點(diǎn)故障,備節(jié)點(diǎn)會(huì)立刻升為主節(jié)點(diǎn)。

      第二是高性能,我們依托于的是全并行的MPP架構(gòu)數(shù)據(jù)庫(kù),真正實(shí)現(xiàn)了全并行的運(yùn)算,使得每一個(gè)節(jié)點(diǎn)的計(jì)算資源都能得到高效的利用。行列混存和向量計(jì)算使得我們速度大大提高,并且數(shù)據(jù)的導(dǎo)入導(dǎo)出速度也會(huì)很快。

      第三是易使用,提供一站式可視化管理,使我們的運(yùn)維人員在頁(yè)面上就可以了解集群的詳情。我們可以將歷史歸檔數(shù)據(jù)歸檔在obs中,用戶(hù)如果想查詢(xún)歷史數(shù)據(jù),可以直接在dws數(shù)據(jù)倉(cāng)庫(kù)里寫(xiě)sql語(yǔ)句進(jìn)行查詢(xún),非常方便。

      第四是易擴(kuò)展,可以支持水平擴(kuò)展,也可以支持豎向擴(kuò)展,使我們的容量可以隨著客戶(hù)的需求逐漸改變,并且擴(kuò)容的時(shí)候我們的業(yè)務(wù)是不中斷的,客戶(hù)可以在無(wú)感知的狀態(tài)下實(shí)現(xiàn)擴(kuò)容。

      最后一項(xiàng)就是低成本、按需付費(fèi),可以按實(shí)際使用量和使用時(shí)長(zhǎng)進(jìn)行匹配。

      又有什么現(xiàn)實(shí)案例呢?就是華為終端云冷熱數(shù)據(jù)關(guān)聯(lián)分析,十倍性能提升所面臨的業(yè)務(wù)痛點(diǎn)是探索查詢(xún)HDFS? 10PB級(jí)歷史數(shù)據(jù),耗時(shí)平均約一個(gè)小時(shí)全量掃描,耗費(fèi)資源。現(xiàn)有的系統(tǒng)對(duì)熱數(shù)據(jù)和歷史數(shù)據(jù)沒(méi)有辦法進(jìn)行關(guān)聯(lián)分析。那么我們DWS怎么樣解決呢?DWS提供標(biāo)準(zhǔn)social能力,助力商業(yè)洞察、資源負(fù)載管理、及時(shí)業(yè)務(wù)性能保障。

      云搜索服務(wù)CSS

      接下來(lái)我們看一下大數(shù)據(jù)搜索與分析里的云搜索服務(wù)。云搜索服務(wù)css可以提供托管的分布式搜索引擎服務(wù),完全兼容開(kāi)源elasticsearch搜索引擎,支持結(jié)構(gòu)化、非結(jié)構(gòu)化文本的多條件檢索、統(tǒng)計(jì)、報(bào)表。

      云搜索服務(wù)具備以下功能:專(zhuān)業(yè)的集群管理平臺(tái),提供了豐富的功能菜單,通過(guò)瀏覽器即可安全、方便的進(jìn)行集群管理和維護(hù)。完善的監(jiān)控體系,通過(guò)管理控制臺(tái)提供的儀表盤(pán)和集群列表,可以直觀地看到已創(chuàng)建集群的各種不同狀態(tài)。支持?ElasticSearch搜索引擎,該引擎是當(dāng)前流行的企業(yè)級(jí)搜索服務(wù)器,具備分布式多用戶(hù)的能力。云搜索主要的使用場(chǎng)景就是站內(nèi)搜索,對(duì)網(wǎng)站內(nèi)容進(jìn)行關(guān)鍵字檢索,對(duì)電商網(wǎng)站商品進(jìn)行檢索與推薦,站內(nèi)資料或商品信息更新數(shù)秒至數(shù)分鐘內(nèi)即可被檢索,檢索同時(shí)可以將符合條件的商品進(jìn)行分類(lèi)統(tǒng)計(jì),提供高亮能力頁(yè)面,也可自定義高亮顯示方式。

      云搜索服務(wù)中搜索方案優(yōu)化:

      支持自定義詞庫(kù),用戶(hù)在詞庫(kù)中添加熱搜詞、關(guān)鍵詞、網(wǎng)絡(luò)常用詞等來(lái)提高搜索輸入的匹配精度。

      支持自定義權(quán)重,用戶(hù)可以根據(jù)業(yè)務(wù)定義不同查詢(xún)條件的權(quán)重,來(lái)決定最終結(jié)果的排序。

      支持越搜越準(zhǔn)(規(guī)劃),云搜索服務(wù)根據(jù)對(duì)搜索結(jié)果的點(diǎn)擊行為,自動(dòng)更新屬性權(quán)重,達(dá)到最終結(jié)果排序更精準(zhǔn)的效果。

      三、華為云大數(shù)據(jù)解決方案

      離線(xiàn)處理

      離線(xiàn)處理通常是指對(duì)海量數(shù)據(jù)進(jìn)行分析和處理,形成結(jié)果數(shù)據(jù),供下一步數(shù)據(jù)應(yīng)用使用。離線(xiàn)處理對(duì)處理時(shí)間要求不高,但是所處理數(shù)據(jù)量較大,占用計(jì)算、存儲(chǔ)資源較多,通常通過(guò)spark作業(yè)或者sql作業(yè)實(shí)現(xiàn)。

      【云駐共創(chuàng)】一文告訴你華為云上大數(shù)據(jù)處理與分析(詳細(xì))

      那我們的數(shù)據(jù)是怎樣處理的呢?首先要提取數(shù)據(jù)源,包括流式數(shù)據(jù)、批量文件數(shù)據(jù)、數(shù)據(jù)庫(kù)等的數(shù)據(jù)源,之后進(jìn)行數(shù)據(jù)采集,可以實(shí)時(shí)數(shù)據(jù)采集,也可以批量采集,到達(dá)離線(xiàn)批處理引擎來(lái)實(shí)現(xiàn)高性能的離線(xiàn)批處理作業(yè)運(yùn)行。最后使用批處理結(jié)果的業(yè)務(wù)應(yīng)用由ISV開(kāi)發(fā)。但是實(shí)現(xiàn)離線(xiàn)處理也是有一定的核心訴求的,例如用戶(hù)數(shù)據(jù)量最大超過(guò)五PB,大于1000節(jié)點(diǎn),多種離線(xiàn)處理作業(yè)同時(shí)運(yùn)行,需要不同的數(shù)據(jù)、權(quán)限和資源調(diào)度,避免越權(quán)訪問(wèn)和搶占資源。客戶(hù)通常存在存量離線(xiàn)處理應(yīng)用需要遷移到fusionInsight平臺(tái),支持多數(shù)據(jù)源、多種數(shù)據(jù)加載方式,用戶(hù)數(shù)據(jù)熱度不同,希望有分級(jí)存儲(chǔ)策略,達(dá)到性能和成本的平衡等。

      數(shù)據(jù)采集工具Flume

      在數(shù)據(jù)采集的時(shí)候會(huì)使用到一個(gè)工具Flume,它是一個(gè)分布式、高可靠和高可用的海量數(shù)據(jù)聚合系統(tǒng)。支持在系統(tǒng)中定制各類(lèi)數(shù)據(jù)提供方和數(shù)據(jù)發(fā)送方,用于收集各種類(lèi)型數(shù)據(jù),并支持?jǐn)?shù)據(jù)進(jìn)行簡(jiǎn)單處理,是一個(gè)使用簡(jiǎn)單方便的數(shù)據(jù)采集工具。支持加密傳輸和非加密傳輸,支持?jǐn)帱c(diǎn)續(xù)傳、支持?jǐn)?shù)據(jù)緩存。我們的數(shù)據(jù)會(huì)先經(jīng)過(guò)攔截過(guò)濾、修飾之后,進(jìn)入到通道之后,sink會(huì)從通道中采集出來(lái)數(shù)據(jù)并進(jìn)行分發(fā),這就完成了數(shù)據(jù)采集的過(guò)程。

      當(dāng)然如果要做簡(jiǎn)單的數(shù)據(jù)轉(zhuǎn)換和遷移,可以使用loader進(jìn)行復(fù)雜的數(shù)據(jù)加工處理,需要加載到Hadoop內(nèi)部后,使用離線(xiàn)處理作業(yè)處理。loader支持可視化數(shù)據(jù)集成,支持多種數(shù)據(jù)源,還有著高性能的特點(diǎn)。接下來(lái),我們會(huì)對(duì)離線(xiàn)批處理引擎內(nèi)的部分組件進(jìn)行簡(jiǎn)單的介紹。離線(xiàn)批處理引擎內(nèi)有個(gè)spark,spark是一站式解決方案及批處理、實(shí)時(shí)流處理、交互式查詢(xún)、圖計(jì)算與機(jī)器學(xué)習(xí)于一體。

      Spark 體系架構(gòu)

      在這幅圖中,Spark Core類(lèi)似于MR的分布式內(nèi)存計(jì)算框架最大,它的特點(diǎn)是將中間計(jì)算結(jié)果直接放在內(nèi)存中,提升計(jì)算性能。spark SQL是一個(gè)用于處理結(jié)構(gòu)化數(shù)據(jù)的spark組件,主要用于結(jié)構(gòu)化數(shù)據(jù)處理和對(duì)數(shù)據(jù)執(zhí)行類(lèi)似sql查詢(xún)。structured streaming 處理的流處理引擎,將流數(shù)據(jù)分片以后,用spark code計(jì)算引擎中進(jìn)行處理,但spark和mapreduce都是Hadoop中最基礎(chǔ)的分布式計(jì)算框架。它們兩個(gè)有什么區(qū)別呢?

      區(qū)別就在于spark主要依賴(lài)內(nèi)存迭代,mapreduce則依賴(lài)hdfs存儲(chǔ)中間結(jié)果數(shù)據(jù)。spark的中間數(shù)據(jù)放到內(nèi)存中效率更高,通過(guò)彈性分布式數(shù)據(jù)集實(shí)現(xiàn)內(nèi)存中計(jì)算,避免磁盤(pán)操作。spark比hadoop更通用、編程模型更靈活。而且與hadoop不同,spark使用Scala編程語(yǔ)言,語(yǔ)言簡(jiǎn)潔且表達(dá)力強(qiáng)。

      在海量批處理引擎中還有一個(gè)重要的組件Hive,Hive引擎把客戶(hù)提交的sql類(lèi)作業(yè)轉(zhuǎn)譯成mr作業(yè),在y的資源調(diào)度下訪問(wèn)hdfs數(shù)據(jù)對(duì)外呈現(xiàn)就像是一個(gè)sql數(shù)據(jù)庫(kù)。hive兼容基本的sql,支持多種sql求訪問(wèn)接口,支持節(jié)點(diǎn)線(xiàn)性擴(kuò)展,支持?jǐn)?shù)據(jù)壓縮和數(shù)據(jù)加密,并且統(tǒng)一原數(shù)據(jù)和數(shù)據(jù)權(quán)限,可以與spark SQL共享元數(shù)據(jù),使用相同的數(shù)據(jù)權(quán)限。

      hive基于hadoop的hdfs和mapreduce框架,初步實(shí)現(xiàn)了針對(duì)海量數(shù)據(jù)上進(jìn)行類(lèi)sql語(yǔ)言查詢(xún)的功能。但是由于mapreduce框架本身的局限性,性能上具有很大的提升空間。

      Hive與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)對(duì)比

      hive和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)相比較,在存儲(chǔ)靈活性、分析速度等方面有著大幅度的提升,但是在索引這方面還是沒(méi)有傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)那么成熟。

      我們?cè)倏匆幌聅park SQL,spark SQL引擎把客戶(hù)提交的sql類(lèi)作業(yè)轉(zhuǎn)譯成spark作業(yè)。在YARN資源調(diào)度下訪問(wèn)hdfs數(shù)據(jù)對(duì)外呈現(xiàn),就像是一個(gè)sql數(shù)據(jù)庫(kù),可以針對(duì)復(fù)雜貢獻(xiàn)社區(qū),可以大幅提升性能,SQL優(yōu)化性能,CBO是華為主導(dǎo),支持多個(gè)sql訪問(wèn)接口,統(tǒng)一原數(shù)據(jù)和數(shù)據(jù)權(quán)限,可以與hive共享元數(shù)據(jù)、繼承數(shù)據(jù)權(quán)限,并且支持節(jié)點(diǎn)線(xiàn)性擴(kuò)展,最大支持5000節(jié)點(diǎn)10PB及以上數(shù)據(jù)。

      spark sql和Hive在數(shù)據(jù)格式、數(shù)據(jù)訪問(wèn)方式等還保持一致,但是數(shù)據(jù)更新方式spark sql在ORC格式下支持增、刪、改、查、建議批量操作,而spark SQL依賴(lài)其他組件,比hive多個(gè)spark。想仔細(xì)了解兩者區(qū)別的,可以看一下上圖表。

      第一,多租戶(hù)-可視化的多級(jí)租戶(hù)管理與企業(yè)組織結(jié)構(gòu)相匹配,簡(jiǎn)化系統(tǒng)資源分配與管理,并且可以對(duì)租戶(hù)資源使用情況進(jìn)行實(shí)時(shí)監(jiān)控。

      二、異構(gòu)設(shè)備支持大內(nèi)存和標(biāo)配內(nèi)存服務(wù)器混搭集群,通過(guò)設(shè)置不同的計(jì)算資源、標(biāo)簽、YARN資源調(diào)度器,保證spark作業(yè)運(yùn)行在大內(nèi)存的節(jié)點(diǎn)上,mr作業(yè)運(yùn)行在標(biāo)配內(nèi)存的節(jié)點(diǎn)上,還有SAS盤(pán)和SATA盤(pán)服務(wù)器混搭集群可以設(shè)置不同的存儲(chǔ)資源標(biāo)簽。

      三、資源靈活配置,組件之間資源調(diào)度,保證組件間資源不爭(zhēng)搶?zhuān)С职凑瞻俜直葹楦鱾€(gè)組。設(shè)置資源配額,支持資源按照時(shí)間自動(dòng)調(diào)整,不同的時(shí)間段設(shè)置不同的資源配置策略,為各種業(yè)務(wù)按照時(shí)段分配資源,實(shí)現(xiàn)資源錯(cuò)峰共享,使得我們資源利用率最大化。

      四、多租戶(hù)資源調(diào)度配置原則,使易購(gòu)資源使用硬隔離,按照標(biāo)簽調(diào)度資源,不同規(guī)格、硬件使用不同標(biāo)簽、不同組件之間按照靜態(tài)資源池隔離資源,防止組件間搶占資源。

      五、分級(jí)存儲(chǔ)。在客戶(hù)的價(jià)值體現(xiàn)在在易購(gòu)資源池的融合,大數(shù)據(jù)平臺(tái)支持靈活的存儲(chǔ)策略,實(shí)現(xiàn)最優(yōu)的性能和成本,提供gui維護(hù)、管理數(shù)據(jù)資產(chǎn),易管理、易運(yùn)維。

      成功案例

      那么成功的案例有z銀行離線(xiàn)分析平臺(tái)業(yè)務(wù)的特點(diǎn)是離線(xiàn)分析集群屬于公有集群,搭建在上海數(shù)據(jù)中心、深圳數(shù)據(jù)通過(guò)交換平臺(tái)及data state進(jìn)行數(shù)據(jù)導(dǎo)入,向上已對(duì)接十八個(gè)應(yīng)用,主要依靠Hive、spark、mr等進(jìn)行離線(xiàn)分析以及機(jī)器學(xué)習(xí),業(yè)務(wù)的負(fù)載需求為同時(shí)有加載作業(yè)和批量作業(yè)在運(yùn)行,加載及批量作業(yè)必須在時(shí)間窗口內(nèi)完成。

      第二個(gè)成功案例,G移動(dòng)O域數(shù)據(jù)解析場(chǎng)景,該場(chǎng)景提供偶遇和網(wǎng)絡(luò)數(shù)據(jù)的解析、存儲(chǔ)、查詢(xún),需要能夠及時(shí)完成每天的數(shù)據(jù)解析匯總,每日數(shù)據(jù)解析匯總時(shí)限為五個(gè)小時(shí)。

      第三個(gè)案例是G移動(dòng)融合計(jì)費(fèi)清單場(chǎng)景,它需要提供融合計(jì)費(fèi)清單的存儲(chǔ)、查詢(xún)及分析,對(duì)我們的性能要求是日匯總兩個(gè)小時(shí),月匯總二十四個(gè)小時(shí)。

      實(shí)時(shí)流處理

      隨著時(shí)代的發(fā)展,數(shù)據(jù)會(huì)越來(lái)越多,而數(shù)據(jù)的改變也是實(shí)時(shí)的,可能前一秒的數(shù)據(jù)和現(xiàn)在都不一樣,對(duì)于大數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)越實(shí)時(shí)越有價(jià)值。

      流計(jì)算是針對(duì)流式數(shù)據(jù)的實(shí)時(shí)計(jì)算,實(shí)時(shí)我們從字面意思就能了解,那流式數(shù)據(jù)是什么呢?是指將數(shù)據(jù)看作數(shù)據(jù)流的形式來(lái)處理。數(shù)據(jù)流是在時(shí)間分布和數(shù)量上無(wú)限的一系列動(dòng)態(tài)數(shù)據(jù)集合體;數(shù)據(jù)記錄是數(shù)據(jù)流的最小組成單元。流式計(jì)算有著計(jì)算任務(wù)一直運(yùn)行,結(jié)果持續(xù)產(chǎn)生秒、毫秒級(jí)。必須是可編程的框架,以適應(yīng)各種業(yè)務(wù)需求,不能是寫(xiě)死的邏輯。處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬(wàn)條數(shù)據(jù)等優(yōu)勢(shì)。實(shí)時(shí)流處理通常是指對(duì)實(shí)時(shí)數(shù)據(jù)源進(jìn)行快速分析、迅速觸發(fā)下一步動(dòng)作的場(chǎng)景。

      實(shí)時(shí)流處理方案架構(gòu)

      實(shí)時(shí)數(shù)據(jù)對(duì)分析、處理速度要求極高,數(shù)據(jù)處理規(guī)模巨大,對(duì)cpu和內(nèi)存要求很高,但是通常數(shù)據(jù)不落地,對(duì)存儲(chǔ)量要求不高。實(shí)時(shí)處理通常通過(guò)spark streaming或者Flink任務(wù)實(shí)現(xiàn)。

      但是實(shí)現(xiàn)實(shí)時(shí)流處理也是有一定的核心訴求的,比如端到端處理需達(dá)到秒級(jí)流處理平臺(tái)負(fù)責(zé)的數(shù)據(jù)采集和數(shù)據(jù)處理要在一秒內(nèi)完成,需在短時(shí)內(nèi)接收并處理大量數(shù)據(jù)記錄,吞吐量需要達(dá)到數(shù)十兆每秒每節(jié)點(diǎn)。為應(yīng)對(duì)數(shù)據(jù)源端業(yè)務(wù)數(shù)據(jù)產(chǎn)生速度會(huì)突然出現(xiàn)峰值的情形,需提供數(shù)據(jù)緩存機(jī)制等。

      可靠性高:網(wǎng)絡(luò)、軟件等故障發(fā)生時(shí),需保證每條數(shù)據(jù)不丟失,數(shù)據(jù)處理不遺漏、不重復(fù)。

      水平擴(kuò)展:當(dāng)系統(tǒng)處理能力出現(xiàn)瓶頸后,可通過(guò)節(jié)點(diǎn)的水平擴(kuò)展提升處理性能。

      多數(shù)據(jù)源支持:支持網(wǎng)絡(luò)流、文件、數(shù)據(jù)庫(kù)表、IOT等格式的數(shù)據(jù)源。對(duì)于文件數(shù)據(jù)源,可以處理增量數(shù)據(jù)的加載。

      數(shù)據(jù)權(quán)限和資源隔離:消息處理、流處理需要有數(shù)據(jù)權(quán)限控制,不同的作業(yè)、用戶(hù)可以訪問(wèn)、處理不同的消息和數(shù)據(jù)。多種流處理應(yīng)用之間要進(jìn)行資源控制和隔離,防止發(fā)生資源爭(zhēng)搶。

      第三方工具對(duì)接:支持與第三方規(guī)則引擎、決策系統(tǒng)、實(shí)時(shí)推薦系統(tǒng)等對(duì)接。

      新一代流處理引擎Flink

      在實(shí)時(shí)流處理方案架構(gòu)里面,分布式流計(jì)算引擎有兩個(gè),接下來(lái)會(huì)對(duì)這兩個(gè)進(jìn)行介紹。

      首先是Flink,F(xiàn)link流數(shù)據(jù)處理引擎是新一代流處理系統(tǒng),具有高吞吐、低時(shí)延、高可靠等特性,它的性能可以達(dá)到毫秒水平,同時(shí)支持多租戶(hù)資源隔離,更適合企業(yè)流處理場(chǎng)景。它的高性能體現(xiàn)在專(zhuān)門(mén)針對(duì)流處理設(shè)計(jì),支持毫秒級(jí)時(shí)延,高可靠體現(xiàn)在支持異步快照機(jī)制,將用戶(hù)作業(yè)狀態(tài)進(jìn)行備份,支持用戶(hù)作業(yè)有狀態(tài)的恢復(fù)。

      第二個(gè)是spark streaming,它是spark核心api的一個(gè)擴(kuò)展,其接收實(shí)時(shí)的輸入數(shù)據(jù)流,然后將這些數(shù)據(jù)切分為批數(shù)據(jù),提供spark引擎處理,spark引擎將數(shù)據(jù)處理成最終的結(jié)果數(shù)據(jù)使用離散流,從kafka和hdfs等源獲取連續(xù)的數(shù)據(jù)流,離散流由一系列連續(xù)的彈性分布式數(shù)據(jù)集組成,每個(gè)彈性分布式數(shù)據(jù)集包含確定時(shí)間間隔的批數(shù)據(jù),任何對(duì)離散流的操作都轉(zhuǎn)換成對(duì)彈性分布式數(shù)據(jù)集的操作。

      使用DStream ( Discretized Stream,離散流)從Kafka和HDFS等源獲取連續(xù)的數(shù)據(jù)流,DStreams由一系列連續(xù)的RDD(Resilient Distributed Datasets,彈性分布式數(shù)據(jù)集)組成,每個(gè)RDD包含確定時(shí)間間隔的批數(shù)據(jù),任何對(duì)DStreams的操作都轉(zhuǎn)換成對(duì)RDD的操作。

      流處理引擎比較

      Flink和spark stream在事件處理方式、時(shí)延、容錯(cuò)機(jī)制和編程接口有著不同,但是什么時(shí)候使用不同的流處理引擎呢?

      推薦原則就是優(yōu)先推薦Flink,實(shí)時(shí)性要求不高的場(chǎng)景可以推薦spark streaming。

      消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布。在消息中間件內(nèi)有一個(gè)kafka,kafka是一個(gè)高吞吐分布式、基于發(fā)布、訂閱的消息系統(tǒng),利用kafka技術(shù),可在X86 pc server上搭建起大規(guī)模消息系統(tǒng),用作實(shí)時(shí)流處理中的消息緩存,最常見(jiàn)的用途是用來(lái)作為實(shí)時(shí)數(shù)據(jù)源的緩存,上圖涉及到kafka的一些基本概念。block是緩存代理kafka集群包含的一個(gè)或多個(gè)服務(wù)實(shí)例block,一個(gè)block對(duì)應(yīng)一臺(tái)服務(wù)器。producer消息和數(shù)據(jù)生產(chǎn)者,用來(lái)向kafka的一個(gè)topic發(fā)布消息的客戶(hù)端,consumer消息和數(shù)據(jù)消費(fèi)者用來(lái)訂閱topic并處理其發(fā)布的消息的客戶(hù)端。

      數(shù)據(jù)緩存我們使用的是高速緩存內(nèi)存庫(kù)redis。redis是一個(gè)高性能的key-value內(nèi)存數(shù)據(jù)庫(kù),適合于作為系統(tǒng)中的cache或者消息隊(duì)列,它有著性能高、豐富的數(shù)據(jù)類(lèi)型支持,支持主從復(fù)制同步等特性,典型案例是風(fēng)控平臺(tái)案例。

      該項(xiàng)目需要風(fēng)控報(bào)警時(shí)效性要求較高,需實(shí)時(shí)報(bào)警,系統(tǒng)處理能力可擴(kuò)展,需平穩(wěn)度過(guò)雙十一等交易量爆發(fā)增長(zhǎng)的時(shí)段。解決方案則是根據(jù)風(fēng)控規(guī)則抽象實(shí)時(shí)變量、批次變量、擴(kuò)展變量和規(guī)則邏輯。實(shí)時(shí)變量通過(guò)CQL動(dòng)定義生成拓?fù)湓诹魈幚硐到y(tǒng)中實(shí)時(shí)計(jì)算。典型例子,本次交易金額、商戶(hù)、MCC碼、批次變量通過(guò)hive離線(xiàn)跑批計(jì)算并存入HBase系統(tǒng),采用雙系統(tǒng)保障可靠性,采用最快的結(jié)果作為有效輸出,雙系統(tǒng)各自使用單獨(dú)的硬件。

      四、數(shù)據(jù)湖治理中心(DGC)

      DAYU數(shù)據(jù)運(yùn)營(yíng)平臺(tái)

      企業(yè)發(fā)展到一定階段,出現(xiàn)多個(gè)事業(yè)部,每個(gè)事業(yè)部都有各自數(shù)據(jù),事業(yè)部之間的數(shù)據(jù)往往都各自存儲(chǔ)、各自定義,每個(gè)事業(yè)部的數(shù)據(jù)就像一個(gè)個(gè)孤島一樣,無(wú)法或者極其困難和企業(yè)內(nèi)部的其他數(shù)據(jù)進(jìn)行連接互動(dòng)。我們把這樣的情況稱(chēng)為數(shù)據(jù)孤島,簡(jiǎn)單說(shuō)就是數(shù)據(jù)間缺乏關(guān)聯(lián)性、數(shù)據(jù)庫(kù)彼此無(wú)法兼容,這就會(huì)造成資源分散、數(shù)據(jù)不通、應(yīng)用孤立的現(xiàn)象,從而導(dǎo)致需求落地慢、業(yè)務(wù)監(jiān)管難、用戶(hù)體驗(yàn)差,嚴(yán)重制約了企業(yè)數(shù)字化發(fā)展。

      那么我們需要達(dá)到一個(gè)什么樣的能力才能解決數(shù)字孤島這個(gè)現(xiàn)象呢?

      首先我們要有可搜索的數(shù)據(jù)目錄,能夠很快地找到我們所需要的數(shù)據(jù);

      其次,我們要能管得住數(shù)據(jù),并且敢去使用數(shù)據(jù),能夠讓數(shù)據(jù)使用可控可追溯。

      最后,我們讓這些重要的數(shù)據(jù)能夠應(yīng)用到我們的企業(yè)當(dāng)中去才是最重要的。

      那么有沒(méi)有一個(gè)平臺(tái)能夠達(dá)到這樣的能力,從而解決數(shù)字孤島現(xiàn)象呢?華為云DAYU平臺(tái)就能夠達(dá)到這樣的能力。

      DAYU平臺(tái),面向企業(yè)數(shù)字化運(yùn)營(yíng)訴求,提供一站式智能數(shù)據(jù)管理能力,幫助企業(yè)快速構(gòu)建從數(shù)據(jù)接入到數(shù)據(jù)分析的端到端智能數(shù)據(jù)系統(tǒng),消除數(shù)據(jù)孤島,統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),加快數(shù)據(jù)變現(xiàn),實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。

      DAYU平臺(tái)就是提供給數(shù)據(jù)運(yùn)營(yíng)人員、業(yè)務(wù)運(yùn)營(yíng)人員的一站式、端到端的數(shù)據(jù)運(yùn)營(yíng)與數(shù)據(jù)治理、平臺(tái)與方案,幫忙企業(yè)快速。構(gòu)建數(shù)據(jù)運(yùn)營(yíng)能力,產(chǎn)出清潔透明、智慧的數(shù)據(jù),同時(shí)讓數(shù)據(jù)可以隨需獲取、敏捷自助,讓數(shù)據(jù)最大化地發(fā)揮它的價(jià)值,推動(dòng)企業(yè)業(yè)務(wù)創(chuàng)新與變革以及人工智能的發(fā)展。

      這個(gè)名字聽(tīng)起來(lái)很像是三過(guò)家門(mén)而不入的大禹,的確命名含義就像是大禹治水一樣,幫助企業(yè)進(jìn)行數(shù)據(jù)治理與運(yùn)營(yíng),最終讓數(shù)據(jù)變?yōu)槠髽I(yè)創(chuàng)新的新能源,讓業(yè)務(wù)豁然開(kāi)朗。

      在上圖中我們可以看出來(lái),大宇平臺(tái)只需要一個(gè)管理中心就可以實(shí)現(xiàn)數(shù)據(jù)集成、規(guī)范設(shè)計(jì)、數(shù)據(jù)開(kāi)發(fā)等功能,可以實(shí)現(xiàn)數(shù)據(jù)的可視化、自動(dòng)化、智能化。無(wú)論是開(kāi)發(fā)、治理、服務(wù)還是資產(chǎn),我們都可以進(jìn)行敏捷的開(kāi)發(fā)和治理。拖拽式開(kāi)發(fā),端到端數(shù)據(jù)鏈路編排和監(jiān)控、業(yè)務(wù)指標(biāo)監(jiān)控,實(shí)時(shí)了解業(yè)務(wù)指標(biāo)、數(shù)據(jù)質(zhì)量、配置質(zhì)量檢查規(guī)則、在線(xiàn)監(jiān)控、數(shù)據(jù)準(zhǔn)確性、數(shù)據(jù)可視化、敏捷配置數(shù)據(jù)可視化大屏。

      DAYU不僅可以從用戶(hù)的角度來(lái)進(jìn)行數(shù)據(jù)的開(kāi)發(fā)和治理,還可以從數(shù)據(jù)的視角進(jìn)行一站式的開(kāi)發(fā)和治理,可以基于業(yè)務(wù)建模、快速檢索、定位數(shù)據(jù),可以一站式作業(yè)、調(diào)度、監(jiān)控、在線(xiàn)數(shù)據(jù)質(zhì)量檢查,還可以消除數(shù)據(jù)冗余、避免數(shù)據(jù)重復(fù)。

      說(shuō)了這么多,那么到底什么地方才可以用到DAYU呢?

      首先第一個(gè)場(chǎng)景就是數(shù)據(jù)治理。現(xiàn)在企業(yè)面臨的痛點(diǎn)是各業(yè)務(wù)部門(mén)數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)來(lái)龍去脈不清楚、質(zhì)量得不到控制,數(shù)據(jù)開(kāi)發(fā)找不到需要的數(shù)據(jù),導(dǎo)致過(guò)多冗余。需要有一個(gè)平臺(tái)能夠制定統(tǒng)一的標(biāo)準(zhǔn),控制數(shù)據(jù)質(zhì)量,保證一致性、完整性、有效性、快速定位數(shù)據(jù),避免冗余存儲(chǔ),DAYU可以對(duì)多種大數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)的管理,滿(mǎn)足多種數(shù)倉(cāng)的需求,并且如果我們?nèi)藬?shù)沒(méi)有那么多怎么辦呢?也可以借助人工智能、機(jī)器學(xué)習(xí)進(jìn)行智能輔助治理。

      第二個(gè)場(chǎng)景就是數(shù)據(jù)分析所面臨的痛點(diǎn)是數(shù)據(jù)準(zhǔn)備耗費(fèi)大量人力投入計(jì)算、存儲(chǔ)、資源不易擴(kuò)展,無(wú)法應(yīng)對(duì)數(shù)據(jù)量變化,需要達(dá)到異構(gòu)數(shù)據(jù)快速集成、快速構(gòu)建數(shù)據(jù)流程、支持高性能數(shù)據(jù)計(jì)算、資源彈性伸縮,快速應(yīng)對(duì)數(shù)據(jù)和業(yè)務(wù)變化。DAYU支持百萬(wàn)級(jí)別的任務(wù)調(diào)度,并且五分鐘就能分析,半小時(shí)內(nèi)完成計(jì)算,極大地提升了我們的效率和速度。

      現(xiàn)實(shí)生活中,我們也可以對(duì)我們的交通數(shù)據(jù)進(jìn)行分析,比如說(shuō)哪些攝像頭捕捉到了有人違反交通規(guī)則,或者哪個(gè)地方的紅綠燈時(shí)間應(yīng)該長(zhǎng)一些或者短一些,最后通過(guò)分析的數(shù)據(jù)進(jìn)行應(yīng)用。

      其次是診斷平臺(tái)指標(biāo)開(kāi)發(fā)流程,基于交通行業(yè)pipeline醬、行業(yè)算子主題模型,快速構(gòu)建指標(biāo)計(jì)算流程,對(duì)電警數(shù)據(jù)、浮動(dòng)車(chē)數(shù)據(jù)以及路段信息進(jìn)行分析。

      總結(jié):

      隨著數(shù)字劃時(shí)代的到來(lái),社會(huì)生產(chǎn)生活產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)量越來(lái)越大,種類(lèi)越來(lái)越多。企業(yè)迫切對(duì)大量數(shù)據(jù)的背后價(jià)值進(jìn)行挖掘,華為云大數(shù)據(jù)服務(wù)幫助企業(yè)構(gòu)筑從數(shù)據(jù)接入,存儲(chǔ)、計(jì)算和分析的全生命周期大數(shù)據(jù)解決方案,幫助企業(yè)客戶(hù)進(jìn)一步挖掘數(shù)據(jù)價(jià)值,快速完成數(shù)字化轉(zhuǎn)型,激發(fā)制造企業(yè)的創(chuàng)新活力、發(fā)展?jié)摿娃D(zhuǎn)型動(dòng)力。華為云為企業(yè)提供大數(shù)據(jù)處理、分級(jí)挖掘的平臺(tái),幫助企業(yè)快速發(fā)覺(jué)數(shù)據(jù)價(jià)值,同時(shí)華為云具備免維護(hù)、免部署、低成本、低門(mén)檻、彈性敏捷等特點(diǎn)。

      注:本文整理自華為云社區(qū)【內(nèi)容共創(chuàng)系列】活動(dòng),

      查看活動(dòng)詳情:https://bbs.huaweicloud.com/blogs/314887

      相關(guān)任務(wù)詳情:華為云上大數(shù)據(jù)處理與分析

      MapReduce 大數(shù)據(jù)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:學(xué)函數(shù)公式的親,據(jù)說(shuō)65%以上都被它坑過(guò)
      下一篇:excel怎樣加錢(qián)的符號(hào)(excel怎么在數(shù)字前面加錢(qián)的符號(hào))
      相關(guān)文章
      337p日本欧洲亚洲大胆色噜噜| 色窝窝亚洲av网| 国产亚洲精品国产福利在线观看| 亚洲人成伊人成综合网久久久| 亚洲日韩中文字幕| 91亚洲国产成人精品下载| 亚洲天堂中文资源| 国产亚洲高清不卡在线观看| 噜噜综合亚洲AV中文无码| 久久久亚洲欧洲日产国码是AV| 国产亚洲综合成人91精品| 伊人亚洲综合青草青草久热| 亚洲第一区精品观看| 亚洲高清偷拍一区二区三区| 国产精品亚洲а∨无码播放麻豆| 亚洲国产精品网站在线播放| 国产AV无码专区亚洲AV麻豆丫| 成人亚洲综合天堂| 亚洲国模精品一区| 亚洲香蕉网久久综合影视| 亚洲乱码日产一区三区| 国产成人A人亚洲精品无码| 久久亚洲高清观看| 久久91亚洲精品中文字幕| 99人中文字幕亚洲区| 亚洲av不卡一区二区三区| 亚洲精品成人无码中文毛片不卡 | 亚洲fuli在线观看| 亚洲一区精彩视频| 亚洲国产精品无码久久久秋霞1 | 亚洲熟女综合一区二区三区| 国产精品亚洲专区无码唯爱网| 一级毛片直播亚洲| 在线观看亚洲精品福利片| 亚洲Av综合色区无码专区桃色| 亚洲AV区无码字幕中文色| 亚洲成在人线中文字幕| 亚洲综合精品伊人久久| 国产精品亚洲专区一区| 国产亚洲人成网站在线观看| 久久国产亚洲观看|