云原生打開數(shù)據(jù)未來的正確方式(云原生 大數(shù)據(jù))

      網(wǎng)友投稿 704 2022-05-30

      本文來源于華為云MVP:馬超

      最近,隨著健康碼的流行,大數(shù)據(jù)又重回大眾的視野。作為新基建產(chǎn)業(yè)的原油,數(shù)據(jù)逐步邁向信息產(chǎn)業(yè)的核心。不過隨著數(shù)據(jù)量級的不斷擴(kuò)大,從數(shù)據(jù)倉庫到數(shù)據(jù)湖再到倉湖一體,如何將各種大數(shù)據(jù)技術(shù)棧整合在一起,發(fā)揮出大數(shù)據(jù)技術(shù)的最大價值成為業(yè)界都在關(guān)注的問題。

      越來越大的數(shù)據(jù),想說愛你不容易

      權(quán)威的咨詢機(jī)構(gòu)IDC對于大數(shù)據(jù)的定義是現(xiàn)有技術(shù)難以處理的數(shù)據(jù)。從歷史來看,在谷歌提出大數(shù)據(jù)三駕馬車的論文時,當(dāng)時的關(guān)系型數(shù)據(jù)庫技術(shù)的確難以處理大規(guī)模的數(shù)據(jù)。傳統(tǒng)SQL在谷歌海量的查詢記錄面前,根本跑不出結(jié)果。

      當(dāng)前,科技企業(yè)要處理的數(shù)據(jù)量還在迅速增長,以筆者所在的銀行為例,創(chuàng)新性的產(chǎn)品令銀行要存儲越來越多的數(shù)據(jù),以開放銀行和數(shù)字貨幣最為典型。比如開放銀行產(chǎn)品推出之前,無論是柜臺、ATM、網(wǎng)上銀行還是手機(jī)銀行,銀行的交易都是由自身完全可控的設(shè)備或APP發(fā)起的,而開放銀行產(chǎn)品無處不在、無時不在,要求銀行必須要記錄客戶的行為數(shù)據(jù),這也就使銀行要處理更多更龐大的數(shù)據(jù)。同樣的情況也出現(xiàn)在數(shù)字貨幣上,我國的央行數(shù)字貨幣(DCEP)一個最重要的屬性就是離線錢包,這也就意味著DCEP必然要記錄之前不會體現(xiàn)在銀行賬面上的現(xiàn)金交易信息,這也會將金融交易的數(shù)據(jù)量級再上臺階。

      在諸多行業(yè)業(yè)務(wù)上云如火如荼的大背景下,從工業(yè)互聯(lián)網(wǎng)及IoT的角度看,數(shù)據(jù)的量級不斷創(chuàng)新高,從我了解到的情況,各大廠的數(shù)據(jù)量級正在以年化80%左右的速度增長,因此可以說大數(shù)據(jù)技依舊術(shù)方興未艾,未來還有廣闊的發(fā)展空間。

      從數(shù)據(jù)庫到數(shù)倉,再到數(shù)據(jù)湖

      在梳理數(shù)據(jù)存儲模型演進(jìn)的歷史后,明顯可以發(fā)現(xiàn),這是一個隨著數(shù)據(jù)量級不斷擴(kuò)大,數(shù)據(jù)模型不斷將傳統(tǒng)特性退化掉的過程,在這個演化當(dāng)中存儲的效率不斷提升。

      從最早關(guān)系型數(shù)據(jù)庫的視角看,數(shù)據(jù)庫是工廠的車間,數(shù)據(jù)是原材料。車間為了進(jìn)行原材料加工,有大量的操作設(shè)備,原材料隨時會被重塑修改,不適合進(jìn)行大量材料的儲存場所。

      關(guān)系型數(shù)據(jù)庫在大量數(shù)據(jù)存儲方面的短板直接催生了Hadoop等大數(shù)據(jù)技術(shù)的革命,從大數(shù)據(jù)的視角看,大數(shù)據(jù)自身就是儲存?zhèn)}庫,而數(shù)據(jù)已經(jīng)是加工完成的成品,沒有被重塑修改回滾的需求。比如HDFS的實現(xiàn)中所有數(shù)據(jù)只能寫入一次,無法修改,這其實是退化掉數(shù)據(jù)的特性,以換取海量數(shù)據(jù)的儲存與查詢性能。

      而隨著大數(shù)據(jù)應(yīng)用的進(jìn)一步拓展,業(yè)界發(fā)現(xiàn)價值密度更低的非結(jié)構(gòu)化數(shù)據(jù)也有儲存及挖掘的必要。比如客服的對話可能是語音、文字甚至是圖像、視頻,這都不是傳統(tǒng)意義上數(shù)據(jù)庫、數(shù)倉可以處理的結(jié)構(gòu)化數(shù)據(jù),因此用于儲存非結(jié)構(gòu)化的數(shù)據(jù)湖出現(xiàn)了,在數(shù)據(jù)湖中數(shù)據(jù)標(biāo)準(zhǔn)化、結(jié)構(gòu)化的特性也退化了。

      三座大山,大數(shù)據(jù)所不能承受之重

      第一座大山是處理時效:在了解數(shù)據(jù)存儲模型的演進(jìn)過程后,我們可以看出關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫與數(shù)據(jù)湖的底層構(gòu)建模型并不相同,彼此兼容性不佳。這首先就會催生出數(shù)據(jù)處理的時效性問題,對于處理時效的要求可能是大數(shù)據(jù)工程師與產(chǎn)品經(jīng)理之間永遠(yuǎn)無法達(dá)到的協(xié)議。

      以筆者所在的銀行為例,分析數(shù)據(jù)在交易核心數(shù)據(jù)庫中跑批處理,再ODS抽取ETL分析到數(shù)倉,再進(jìn)一步訓(xùn)練流式計算,最后再入湖,其時效最快也是T+1日,而且Hadoop和數(shù)據(jù)湖的開源生態(tài)中很多組件并不兼容,日常運(yùn)維已捉襟見肘,想提速也無從下手,但業(yè)務(wù)對了轉(zhuǎn)瞬即逝的營銷機(jī)會又如此渴求,T+1分鐘可能都會嫌慢。

      如果還回答不出更細(xì)節(jié)、隱含的問題,比如非線性問題,還要把數(shù)據(jù)復(fù)制到SAS中做機(jī)器學(xué)習(xí),再做統(tǒng)計的指標(biāo)體系,去做進(jìn)一步挖掘。數(shù)據(jù)要在這里搬動三次,復(fù)制三份冗余,還要管理數(shù)據(jù)一致性,每天數(shù)據(jù)中心運(yùn)維的大量工作在做數(shù)據(jù)搬家。

      第二座大山是數(shù)據(jù)治理: 現(xiàn)在,數(shù)據(jù)中心也開始要做一個融合性的計算框架。比如,現(xiàn)在AI要做online訓(xùn)練,淘寶推薦引擎,滴滴打車的路徑動態(tài)規(guī)劃都在做即時數(shù)據(jù),這都需要很高的數(shù)據(jù)治理水平進(jìn)行支撐。

      數(shù)據(jù)治理作為擺在大數(shù)據(jù)工程師面前的一大痛點,去年初微盟發(fā)生了舉世矚目的刪庫事件,可以看到從2月23日刪庫中斷事件,到3月1日的數(shù)據(jù)全面找回,再到3月3日的數(shù)據(jù)恢復(fù)整個事件持續(xù)了一周多的時間。

      云原生是打開大數(shù)據(jù)未來的正確方式(云原生 大數(shù)據(jù))

      對微盟這樣體量的電商來說,損失無疑是巨大的,股市市值的蒸發(fā)是一方面,更重要的是科技公司從本質(zhì)上是經(jīng)營數(shù)據(jù)的公司,而數(shù)據(jù)丟失事件與銀行金庫被盜事件從某種程度來說是同樣性質(zhì)的事件,都會對當(dāng)事公司的聲譽(yù)造成極大的影響。造成這個問題的本質(zhì)還是由于數(shù)據(jù)治理水平,只有將數(shù)據(jù)按照重要性把數(shù)據(jù)分類,并分別制訂治理策略,才能在真正有用的數(shù)據(jù)丟失時找到最切實可行的應(yīng)對辦法,眉毛胡子一把抓難以真正降本提效。

      按照筆者的觀察,目前從治理角度,可以將數(shù)據(jù)分為以下三種類型:

      應(yīng)用數(shù)據(jù):也就是交易類應(yīng)用所產(chǎn)生的數(shù)據(jù)。為了滿足業(yè)務(wù)需要構(gòu)建業(yè)務(wù)IT系統(tǒng),隨著IT業(yè)務(wù)系統(tǒng)的不斷運(yùn)行,大量應(yīng)用數(shù)據(jù)就產(chǎn)生了,這些數(shù)據(jù)經(jīng)過ETL加工進(jìn)入數(shù)據(jù)倉庫,進(jìn)行再處理,供業(yè)務(wù)應(yīng)用。這些數(shù)據(jù)都是單一的關(guān)系型數(shù)據(jù),數(shù)據(jù)量級是GB的。

      用戶行為數(shù)據(jù):隨著互聯(lián)網(wǎng)和電商的快速發(fā)展,大量人的操作行為和使用行為產(chǎn)生的數(shù)據(jù),像谷歌、臉書等大數(shù)據(jù)互聯(lián)公司,都記錄人的形成產(chǎn)生的數(shù)據(jù)。上網(wǎng)行為、瀏覽行為、購買行為、評論行為、刷微博,做抖音等都可以產(chǎn)生大量數(shù)據(jù)。這些數(shù)據(jù)不再是單一的結(jié)構(gòu)化數(shù)據(jù),出現(xiàn)了大量文檔、音頻和視頻數(shù)據(jù),數(shù)據(jù)量級是TB級的。

      硬件日志數(shù)據(jù):進(jìn)入萬物互聯(lián)的時代,大量機(jī)器傳感器,IoT設(shè)備都會產(chǎn)生大量數(shù)據(jù)。這些設(shè)備 7*24小時產(chǎn)生數(shù)據(jù),數(shù)據(jù)格式也是多種多樣,有的是日志數(shù)據(jù),有的是時序數(shù)據(jù),有的是網(wǎng)格數(shù)據(jù)等等,數(shù)據(jù)量級是PB的。

      從數(shù)據(jù)治理角度上講,上述數(shù)據(jù)的備份需求是不同的,如果混到一起,那快速恢復(fù)業(yè)務(wù)根本無從談起。而從數(shù)據(jù)使用的角度上講,隨著海量的行為及日志類數(shù)據(jù)的出現(xiàn),數(shù)據(jù)的價值必然要從數(shù)據(jù)治理的角度去要價值。

      針對行為及日志等重要性等級不高的數(shù)據(jù),一般采用異地磁帶備份的方式,使用溫備乃至冷備的試進(jìn)行,不過從目前情況看不少企業(yè)尤其是創(chuàng)業(yè)型企業(yè),都沒有百年老店的觀念,在初創(chuàng)時期對于這方面考慮和規(guī)劃還不夠,規(guī)劃沒做好,將來必然會對企業(yè)發(fā)展有負(fù)面影響。

      這又就引出第三座大山 - 災(zāi)備規(guī)劃:但也經(jīng)常被公司管理人員所忽略,大多數(shù)初創(chuàng)公司不會提前規(guī)劃災(zāi)備體系,公司上規(guī)模之后再進(jìn)行災(zāi)備建設(shè)又是mission impossible。一般來說兩地三中心中的生產(chǎn)與同城中心是雙活的可以快速接管業(yè)務(wù),異地中心數(shù)據(jù)延遲同步,以應(yīng)對一些刪庫刪表類的誤操作。正如剛剛所說Hadoop與數(shù)據(jù)湖兩套體系中的開源組件兼容性很差,能讓兩者協(xié)同工作已屬不易,再補(bǔ)充建設(shè)災(zāi)備節(jié)點難上加難。

      一般來說目前比較流行的災(zāi)備體系是兩地三中心的架構(gòu),也就是至少在兩個地域建設(shè)三個數(shù)據(jù)中心,其中:

      主中心:正常情況下全面提供業(yè)務(wù)服務(wù)

      同城中心:一般與主中心處在同一省份,主中心使用同步復(fù)制的方式來向同城災(zāi)備中心傳輸數(shù)據(jù),保證同城中心數(shù)據(jù)復(fù)本為最新,隨時可以接管業(yè)務(wù),以保證RTO的指標(biāo)。但是同城中心無法應(yīng)對此類刪庫事件。

      異地中心:一般使用延時異步復(fù)制(延時時間一般為30分鐘左右)的方式向異地災(zāi)備中心傳輸數(shù)據(jù),其中同步復(fù)制的好處是一旦主中心被人工破壞,那么不會立刻涉及異地中心。以保證RPO的指標(biāo)。

      總結(jié)災(zāi)備體系的最佳實踐就是兩地三中心;同城保證業(yè)務(wù)連續(xù)性,優(yōu)先負(fù)責(zé)用戶體驗;異地保證數(shù)據(jù)連續(xù)性,確保企業(yè)生存底線。上云后的災(zāi)備規(guī)劃也一定要納入設(shè)計范圍,一旦沒有提前的規(guī)劃,后續(xù)的補(bǔ)齊填坑的工作非常麻煩。

      云原生打開大數(shù)據(jù)未來的正確方式

      從上面三座大山可以看出,大數(shù)據(jù)最終用戶的最佳選擇就是在云平臺上找到大數(shù)據(jù)的一棧式解決方案,屏蔽底層組件的差別,才能提高效率,低成本運(yùn)維,因此可以說與云計算無縫對接的云原生技術(shù)肯定會是未來的方向。

      而華為云云原生大數(shù)據(jù)以其容器化集成及全棧大數(shù)據(jù)云平臺的兩大特性,很好解決了大數(shù)據(jù)技術(shù)在實際落地中的特點,我們用“大數(shù)據(jù)的操作系統(tǒng)”來定義華為云的云原生大數(shù)據(jù)會更加直觀貼切:

      容器化集成:基于Mesos的資源管理,支持Marathon和Kubernetes的容器編排框架,采用云原生架構(gòu)的數(shù)據(jù)平臺。底層是對容器化的支持,以及對Hadoop、Spark、Kafka、Tensorflow、Hive等這些大數(shù)據(jù)開源組件的容器化發(fā)布,這就是打地基。

      華為云通過開源的Docker、K8S、Mesos等技術(shù),對主流的Hadoop、Hive、Spark、Kafka等多種大數(shù)據(jù)技術(shù)組件進(jìn)行了容器化集成,實現(xiàn)大數(shù)據(jù)應(yīng)用與底層運(yùn)行環(huán)境之間的解耦,推出了應(yīng)用云平臺(PaaS)與容器大數(shù)據(jù)平臺。也就是說華為云的用戶不用再過度關(guān)心底層開源組件的運(yùn)維了,可以更加專注于自身的業(yè)務(wù)。

      全棧大數(shù)據(jù)云:在大數(shù)據(jù)開源組件容器化的基礎(chǔ)上,華為云還把數(shù)據(jù)開發(fā)平臺統(tǒng)一集成,推出了數(shù)據(jù)湖治理中心DGC(Data Lake Govenance Center,鏈接:https://www.huaweicloud.com/product/dayu.html),包括數(shù)據(jù)采集、數(shù)據(jù)規(guī)范、數(shù)據(jù)開發(fā)、數(shù)據(jù)服務(wù)、數(shù)據(jù)治理、數(shù)據(jù)可視化等多項工具。數(shù)據(jù)集成開發(fā)平臺與應(yīng)用云平臺(PaaS)與容器大數(shù)據(jù)平臺打包交付。?并已經(jīng)服務(wù)了能源、教育、醫(yī)療健康、物聯(lián)網(wǎng)、金融等領(lǐng)域的數(shù)十家客戶,據(jù)筆者掌握的信息,華為云的客戶復(fù)購率近100%。

      更進(jìn)一步,華為云最近還推出了一套幫助政企構(gòu)建數(shù)據(jù)體系的數(shù)據(jù)使能DAYU服務(wù)(鏈接:https://www.huaweicloud.com/solution/dataenabling.html),結(jié)合華為數(shù)字化轉(zhuǎn)型實踐和30多年在ICT基礎(chǔ)設(shè)施領(lǐng)域積累的技術(shù),攜手行業(yè)合作伙伴,為客戶提供一站式數(shù)據(jù)全生命周期管理解決方案,打造“全域、服務(wù)化、資產(chǎn)化、智能、安全”的數(shù)據(jù)體系,釋放數(shù)據(jù)價值。

      展望未來,云原生大數(shù)據(jù)技術(shù)還可以充分利用AI技術(shù)降本增效:

      利用人工智能將冷熱數(shù)據(jù)分層分離,讓計算和存儲資源充分利用,有效降低數(shù)據(jù)管理成本。

      通過分析系統(tǒng)運(yùn)行狀態(tài)和日志數(shù)據(jù)信息,利用人工智能建模,來實現(xiàn)動態(tài)系統(tǒng)參數(shù)調(diào)整和系統(tǒng)優(yōu)化,顯著降低系統(tǒng)數(shù)據(jù)管理者的運(yùn)維成本。

      利用機(jī)器學(xué)習(xí)技術(shù)幫助系統(tǒng)建立更加準(zhǔn)確高效的在線預(yù)警與實時監(jiān)測系統(tǒng),來實現(xiàn)智能化的運(yùn)維管控和資源調(diào)配,幫助系統(tǒng)管理人員將更多的時間和精力集中在更重要的系統(tǒng)任務(wù)上。

      云原生 大數(shù)據(jù) 數(shù)據(jù)庫

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:高并發(fā)大容量NoSQL解決方案探索
      下一篇:ORACLE分區(qū)表轉(zhuǎn)換之在線重定義(DBMS_REDEFINITION)(oracle 在線重定義)
      相關(guān)文章
      国产午夜亚洲精品不卡电影| 亚洲乱色熟女一区二区三区蜜臀| 亚洲AV成人片无码网站| 亚洲综合精品成人| 亚洲一区二区三区在线| 亚洲国产精品专区| 亚洲伦理一二三四| 亚洲中文字幕人成乱码| 亚洲不卡1卡2卡三卡2021麻豆| 亚洲视频中文字幕在线| 亚洲国产精品一区| 亚洲午夜免费视频| 亚洲精品中文字幕麻豆| 亚洲第一香蕉视频| 亚洲一区二区三区免费观看| 亚洲人成电影网站| 中文字幕亚洲男人的天堂网络 | 亚洲毛片av日韩av无码| 久久人午夜亚洲精品无码区| 亚洲av中文无码乱人伦在线观看| 亚洲av永久无码一区二区三区| 国产精品亚洲色婷婷99久久精品| 色婷婷六月亚洲综合香蕉| 久久亚洲中文无码咪咪爱| 国产精品成人亚洲| 久久久久亚洲AV综合波多野结衣| 亚洲最大AV网站在线观看| 亚洲第一AV网站| 亚洲男人天堂2017| 亚洲国产成人久久77| 亚洲一区精彩视频| 亚洲成AV人片高潮喷水| 午夜亚洲av永久无码精品| 亚洲性在线看高清h片| 亚洲免费观看视频| 亚洲天堂中文资源| 亚洲人成人77777在线播放| 亚洲中文字幕无码av永久| 激情婷婷成人亚洲综合| 亚洲第一黄片大全| 亚洲精品亚洲人成在线观看|