大數(shù)據(jù)計(jì)算架構(gòu)演進(jìn)

      網(wǎng)友投稿 996 2022-05-28

      導(dǎo)讀:

      麥肯錫率先提出大數(shù)據(jù)的概念,并稱(chēng)數(shù)據(jù)已經(jīng)滲透到當(dāng)今的各行各業(yè),成為重要的生產(chǎn)因素。人們對(duì)于大數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)力增長(zhǎng)和消費(fèi)盈余浪潮的到來(lái)。

      華為云數(shù)據(jù)湖探索(后文簡(jiǎn)稱(chēng)DLI)服務(wù)小組在多年的大數(shù)據(jù)計(jì)算實(shí)踐中意識(shí)到,大數(shù)據(jù)真正難以對(duì)付的挑戰(zhàn)來(lái)自于數(shù)據(jù)類(lèi)型多樣(variety)、要求及時(shí)響應(yīng)(velocity)和數(shù)據(jù)的不確定性(veracity)。

      針對(duì)數(shù)據(jù)計(jì)算的挑戰(zhàn),筆者從以下四點(diǎn)講述他了解的架構(gòu)故事。

      1、800Mbps吞吐量、網(wǎng)絡(luò)帶寬1Gbps時(shí)代

      2、計(jì)算存儲(chǔ)耦合架構(gòu)

      3、計(jì)算存儲(chǔ)分離架構(gòu)

      4、DLI服務(wù)架構(gòu)

      800Mbps吞吐量、網(wǎng)絡(luò)帶寬1Gbps時(shí)代

      在十幾年前,硬盤(pán)的吞吐量大概在800Mbps,網(wǎng)絡(luò)帶寬?1Gbps,?架構(gòu)師們是如何設(shè)計(jì)大數(shù)據(jù)系統(tǒng)的架構(gòu)呢?

      1、?幾十臺(tái)、上百臺(tái)普通的?x86?物理機(jī)部署在同一機(jī)房

      單臺(tái)物理機(jī)提供的算力有限,使用大規(guī)模的普通廉價(jià)物理機(jī)組成分布式集群,成千上萬(wàn)個(gè)普通x86?CPU并行計(jì)算突破了單臺(tái)物理機(jī)算力極限。

      2、數(shù)據(jù)盡量平衡的存儲(chǔ)在每個(gè)機(jī)器甚至每個(gè)硬盤(pán)上

      單臺(tái)物理機(jī)掛載幾個(gè)至十幾個(gè)普通硬盤(pán),使用普通x86機(jī)器和普通硬盤(pán)搭建了大規(guī)模存儲(chǔ),有效解決超大規(guī)模數(shù)據(jù)存儲(chǔ)問(wèn)題。

      3、數(shù)據(jù)本地化(data?locality)

      數(shù)據(jù)均衡的存儲(chǔ)在每個(gè)硬盤(pán)上,數(shù)據(jù)處理任務(wù)從遠(yuǎn)程物理機(jī)獲取數(shù)據(jù)開(kāi)銷(xiāo)大。以數(shù)據(jù)為“中心”,將數(shù)據(jù)處理任務(wù)遷移到數(shù)據(jù)所在的物理機(jī)上,能有效降低網(wǎng)絡(luò)帶寬,保證了整體性能。

      計(jì)算存儲(chǔ)耦合架構(gòu)

      技術(shù)在進(jìn)步,經(jīng)過(guò)十多年的發(fā)展,單機(jī)網(wǎng)絡(luò)從之前的1Gbps發(fā)展到40Gbps甚至100Gbps,提升了100倍。內(nèi)存容量從以前的10+GB發(fā)展到了500+GB?提升了50倍。?帶寬不再是稀缺資源,大數(shù)據(jù)處理的瓶頸逐漸從網(wǎng)絡(luò)轉(zhuǎn)移到CPU上,上述計(jì)算存儲(chǔ)耦合架構(gòu)的缺點(diǎn)也逐漸突顯出來(lái)。

      1、木桶效應(yīng)

      不同場(chǎng)景需要的存儲(chǔ)空間和算力配比是不一樣的。實(shí)際使用中要么計(jì)算資源達(dá)到瓶頸,要么是存儲(chǔ)容量不足,只能對(duì)集群進(jìn)行擴(kuò)容,造成集群資源浪費(fèi)。

      2、不再萬(wàn)能的數(shù)據(jù)本地化

      在云上,基于網(wǎng)絡(luò)的塊存儲(chǔ)逐步取代了單機(jī)硬盤(pán),數(shù)據(jù)本地化并不是真實(shí)的,數(shù)據(jù)處理任務(wù)讀取本地?cái)?shù)據(jù)在物理層也是遠(yuǎn)程讀。

      3、無(wú)法彈性計(jì)算

      不同場(chǎng)景,不同時(shí)期需要的算力是不固定的,存在波峰和波谷。物理機(jī)中存儲(chǔ)數(shù)據(jù)造成無(wú)法大規(guī)模關(guān)閉閑置節(jié)點(diǎn),造成電力浪費(fèi)。

      計(jì)算存儲(chǔ)分離架構(gòu)

      在云時(shí)代,我們有更加可靠和廉價(jià)的數(shù)據(jù)存儲(chǔ)方案,?以華為云對(duì)象存儲(chǔ)服務(wù)(下文簡(jiǎn)稱(chēng)OBS)為例

      1、節(jié)約成本

      在儲(chǔ)存成本上,每GB數(shù)據(jù)每月只需要0.099元,?其儲(chǔ)存成本是云盤(pán)的三分之一,甚至更低

      2、安全可靠

      大數(shù)據(jù)計(jì)算架構(gòu)的演進(jìn)

      在可靠性上,OBS跨數(shù)據(jù)中心桶支持跨數(shù)據(jù)中心高可靠,本地盤(pán)和云盤(pán)不支持

      3、海量容量

      單桶支持千億文件,容量高達(dá)PB級(jí)遠(yuǎn)超云盤(pán)

      4、?高速讀取

      單流讀取帶寬高達(dá)2400Gbps基本和云盤(pán)持平

      有更高性能的計(jì)算節(jié)點(diǎn),華為云內(nèi)存優(yōu)化網(wǎng)絡(luò)增強(qiáng)型M3NE云服務(wù)器(下文簡(jiǎn)稱(chēng)M3NE)為例

      1、?每個(gè)vcore至少600Mbps的帶寬,單機(jī)帶寬不再是問(wèn)題。

      2、CPU/內(nèi)存配比1:8,?可以加載更多數(shù)據(jù)到內(nèi)存中,硬盤(pán)不再是主戰(zhàn)場(chǎng)。

      將大數(shù)據(jù)系統(tǒng)的計(jì)算和存儲(chǔ)分離能大幅提升資源效率,主要優(yōu)點(diǎn)有:

      1、?大幅減少存儲(chǔ)成本

      數(shù)據(jù)集中存儲(chǔ)OBS上,按使用量付費(fèi),用多少算多少,無(wú)需事先規(guī)劃存儲(chǔ)容量,存儲(chǔ)資源可線(xiàn)性無(wú)限擴(kuò)展。

      2、極致彈性

      按使用時(shí)長(zhǎng)計(jì)費(fèi),使用時(shí)收費(fèi),不使用不收算力費(fèi)用。?無(wú)線(xiàn)事先規(guī)劃計(jì)算集群規(guī)模,計(jì)算集群可自動(dòng)彈性擴(kuò)容。

      3、跨數(shù)據(jù)中心容災(zāi)

      DLI服務(wù)支持計(jì)算集群跨數(shù)據(jù)中心的容災(zāi),確保數(shù)據(jù)在需要時(shí)安全可用。

      當(dāng)然世界上不存在完美的架構(gòu),計(jì)算存儲(chǔ)分離后計(jì)算任務(wù)遠(yuǎn)程訪(fǎng)問(wèn)數(shù)據(jù)會(huì)導(dǎo)致單節(jié)點(diǎn)需要更多的帶寬,更高的網(wǎng)絡(luò)延遲。

      DLI服務(wù)架構(gòu)

      超高IO云盤(pán)的讀寫(xiě)時(shí)延只有1ms甚至500ns,?OBS元數(shù)據(jù)操作延遲10ms左右,差一個(gè)數(shù)量級(jí)。

      針對(duì)該問(wèn)題,DLI服務(wù)引入Alluxio分布式緩存組件,支持分布式內(nèi)存+本地SSD緩存,減少數(shù)據(jù)讀取路徑,并大幅減少南北向網(wǎng)絡(luò)流量。支持CarbonData等高壓縮比列存文件格式,利用列存和索引盡量減少單次計(jì)算任務(wù)讀取的數(shù)據(jù)量。

      DLI?服務(wù)使用最新M3NE類(lèi)型虛擬機(jī)構(gòu)建計(jì)算集群,M3NE使用Intel?Xeon?SkyLake全新一代CPU,配套華為自研25GE智能高速網(wǎng)卡,提供超高的網(wǎng)絡(luò)性能。

      接下來(lái)我們DLI服務(wù)將進(jìn)一步降低用戶(hù)計(jì)算成本,提高計(jì)算效率,減少耗能

      1、計(jì)算集群支持RoCE網(wǎng)絡(luò)

      RoCE(RDMA?over?Converged?Ethernet)是一種允許通過(guò)以太網(wǎng)使用遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)(RDMA)的網(wǎng)絡(luò)協(xié)議,能大幅減少網(wǎng)絡(luò)IO占用的CPU,甚至只需5%的CPU就能跑滿(mǎn)40Gbps的網(wǎng)卡。

      大數(shù)據(jù)組件使用RoCE網(wǎng)絡(luò)能大幅減少計(jì)算集群東西向流量占用的CPU資源。

      2、基于ARM構(gòu)建計(jì)算集群

      基于華為自研的ARM架構(gòu)服務(wù)器構(gòu)建計(jì)算集群能大幅減少計(jì)算集群成本,?并降低電力消耗。

      大數(shù)據(jù) 網(wǎng)絡(luò)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:MapReduce快速入門(mén)系列(11) | MapTask,ReduceTask以及MapReduce運(yùn)行機(jī)制詳解
      下一篇:微信小程序?qū)崿F(xiàn)大轉(zhuǎn)盤(pán)抽獎(jiǎng)功能
      相關(guān)文章
      校园亚洲春色另类小说合集| 亚洲AV区无码字幕中文色| 亚洲AV无码一区二区二三区软件| 亚洲VA中文字幕无码一二三区| 亚洲av无码不卡私人影院| 亚洲成a人片在线观看天堂无码| 久久亚洲最大成人网4438| 亚洲人成影院在线| 亚洲大片在线观看| 亚洲国产AV无码专区亚洲AV| 亚洲级αV无码毛片久久精品| 国产午夜亚洲不卡| 亚洲国产欧美一区二区三区| 亚洲精品网站在线观看你懂的| 久久亚洲国产成人精品无码区| mm1313亚洲精品国产| 亚洲成av人片天堂网老年人| 亚洲国产精品成人AV无码久久综合影院| 最新亚洲人成无码网站| 另类小说亚洲色图| 国产精品亚洲αv天堂无码| 国产亚洲成人在线播放va| 亚洲精品无码AV人在线播放| 亚洲综合AV在线在线播放| 亚洲精品乱码久久久久久自慰| 亚洲第一AV网站| 久久国产亚洲电影天堂| 久久国产亚洲精品无码| 亚洲精品动漫在线| 久久精品国产亚洲av麻豆蜜芽| 亚洲最大天堂无码精品区| 亚洲6080yy久久无码产自国产| 伊人久久亚洲综合影院| 中文字幕亚洲日韩无线码| 日本亚洲视频在线 | 亚洲高清视频一视频二视频三| 亚洲人成色7777在线观看不卡| 亚洲黄片手机免费观看| 亚洲色偷拍另类无码专区| 亚洲第一精品福利| 亚洲最大的黄色网|