Tungsten Fabric SDN — SmartNIC vRouter
996
2022-05-28
導(dǎo)讀:
麥肯錫率先提出大數(shù)據(jù)的概念,并稱(chēng)數(shù)據(jù)已經(jīng)滲透到當(dāng)今的各行各業(yè),成為重要的生產(chǎn)因素。人們對(duì)于大數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)力增長(zhǎng)和消費(fèi)盈余浪潮的到來(lái)。
華為云數(shù)據(jù)湖探索(后文簡(jiǎn)稱(chēng)DLI)服務(wù)小組在多年的大數(shù)據(jù)計(jì)算實(shí)踐中意識(shí)到,大數(shù)據(jù)真正難以對(duì)付的挑戰(zhàn)來(lái)自于數(shù)據(jù)類(lèi)型多樣(variety)、要求及時(shí)響應(yīng)(velocity)和數(shù)據(jù)的不確定性(veracity)。
針對(duì)數(shù)據(jù)計(jì)算的挑戰(zhàn),筆者從以下四點(diǎn)講述他了解的架構(gòu)故事。
1、800Mbps吞吐量、網(wǎng)絡(luò)帶寬1Gbps時(shí)代
2、計(jì)算存儲(chǔ)耦合架構(gòu)
3、計(jì)算存儲(chǔ)分離架構(gòu)
4、DLI服務(wù)架構(gòu)
800Mbps吞吐量、網(wǎng)絡(luò)帶寬1Gbps時(shí)代
在十幾年前,硬盤(pán)的吞吐量大概在800Mbps,網(wǎng)絡(luò)帶寬?1Gbps,?架構(gòu)師們是如何設(shè)計(jì)大數(shù)據(jù)系統(tǒng)的架構(gòu)呢?
1、?幾十臺(tái)、上百臺(tái)普通的?x86?物理機(jī)部署在同一機(jī)房
單臺(tái)物理機(jī)提供的算力有限,使用大規(guī)模的普通廉價(jià)物理機(jī)組成分布式集群,成千上萬(wàn)個(gè)普通x86?CPU并行計(jì)算突破了單臺(tái)物理機(jī)算力極限。
2、數(shù)據(jù)盡量平衡的存儲(chǔ)在每個(gè)機(jī)器甚至每個(gè)硬盤(pán)上
單臺(tái)物理機(jī)掛載幾個(gè)至十幾個(gè)普通硬盤(pán),使用普通x86機(jī)器和普通硬盤(pán)搭建了大規(guī)模存儲(chǔ),有效解決超大規(guī)模數(shù)據(jù)存儲(chǔ)問(wèn)題。
3、數(shù)據(jù)本地化(data?locality)
數(shù)據(jù)均衡的存儲(chǔ)在每個(gè)硬盤(pán)上,數(shù)據(jù)處理任務(wù)從遠(yuǎn)程物理機(jī)獲取數(shù)據(jù)開(kāi)銷(xiāo)大。以數(shù)據(jù)為“中心”,將數(shù)據(jù)處理任務(wù)遷移到數(shù)據(jù)所在的物理機(jī)上,能有效降低網(wǎng)絡(luò)帶寬,保證了整體性能。
計(jì)算存儲(chǔ)耦合架構(gòu)
技術(shù)在進(jìn)步,經(jīng)過(guò)十多年的發(fā)展,單機(jī)網(wǎng)絡(luò)從之前的1Gbps發(fā)展到40Gbps甚至100Gbps,提升了100倍。內(nèi)存容量從以前的10+GB發(fā)展到了500+GB?提升了50倍。?帶寬不再是稀缺資源,大數(shù)據(jù)處理的瓶頸逐漸從網(wǎng)絡(luò)轉(zhuǎn)移到CPU上,上述計(jì)算存儲(chǔ)耦合架構(gòu)的缺點(diǎn)也逐漸突顯出來(lái)。
1、木桶效應(yīng)
不同場(chǎng)景需要的存儲(chǔ)空間和算力配比是不一樣的。實(shí)際使用中要么計(jì)算資源達(dá)到瓶頸,要么是存儲(chǔ)容量不足,只能對(duì)集群進(jìn)行擴(kuò)容,造成集群資源浪費(fèi)。
2、不再萬(wàn)能的數(shù)據(jù)本地化
在云上,基于網(wǎng)絡(luò)的塊存儲(chǔ)逐步取代了單機(jī)硬盤(pán),數(shù)據(jù)本地化并不是真實(shí)的,數(shù)據(jù)處理任務(wù)讀取本地?cái)?shù)據(jù)在物理層也是遠(yuǎn)程讀。
3、無(wú)法彈性計(jì)算
不同場(chǎng)景,不同時(shí)期需要的算力是不固定的,存在波峰和波谷。物理機(jī)中存儲(chǔ)數(shù)據(jù)造成無(wú)法大規(guī)模關(guān)閉閑置節(jié)點(diǎn),造成電力浪費(fèi)。
計(jì)算存儲(chǔ)分離架構(gòu)
在云時(shí)代,我們有更加可靠和廉價(jià)的數(shù)據(jù)存儲(chǔ)方案,?以華為云對(duì)象存儲(chǔ)服務(wù)(下文簡(jiǎn)稱(chēng)OBS)為例
1、節(jié)約成本
在儲(chǔ)存成本上,每GB數(shù)據(jù)每月只需要0.099元,?其儲(chǔ)存成本是云盤(pán)的三分之一,甚至更低
2、安全可靠
在可靠性上,OBS跨數(shù)據(jù)中心桶支持跨數(shù)據(jù)中心高可靠,本地盤(pán)和云盤(pán)不支持
3、海量容量
單桶支持千億文件,容量高達(dá)PB級(jí)遠(yuǎn)超云盤(pán)
4、?高速讀取
單流讀取帶寬高達(dá)2400Gbps基本和云盤(pán)持平
有更高性能的計(jì)算節(jié)點(diǎn),華為云內(nèi)存優(yōu)化網(wǎng)絡(luò)增強(qiáng)型M3NE云服務(wù)器(下文簡(jiǎn)稱(chēng)M3NE)為例
1、?每個(gè)vcore至少600Mbps的帶寬,單機(jī)帶寬不再是問(wèn)題。
2、CPU/內(nèi)存配比1:8,?可以加載更多數(shù)據(jù)到內(nèi)存中,硬盤(pán)不再是主戰(zhàn)場(chǎng)。
將大數(shù)據(jù)系統(tǒng)的計(jì)算和存儲(chǔ)分離能大幅提升資源效率,主要優(yōu)點(diǎn)有:
1、?大幅減少存儲(chǔ)成本
數(shù)據(jù)集中存儲(chǔ)OBS上,按使用量付費(fèi),用多少算多少,無(wú)需事先規(guī)劃存儲(chǔ)容量,存儲(chǔ)資源可線(xiàn)性無(wú)限擴(kuò)展。
2、極致彈性
按使用時(shí)長(zhǎng)計(jì)費(fèi),使用時(shí)收費(fèi),不使用不收算力費(fèi)用。?無(wú)線(xiàn)事先規(guī)劃計(jì)算集群規(guī)模,計(jì)算集群可自動(dòng)彈性擴(kuò)容。
3、跨數(shù)據(jù)中心容災(zāi)
DLI服務(wù)支持計(jì)算集群跨數(shù)據(jù)中心的容災(zāi),確保數(shù)據(jù)在需要時(shí)安全可用。
當(dāng)然世界上不存在完美的架構(gòu),計(jì)算存儲(chǔ)分離后計(jì)算任務(wù)遠(yuǎn)程訪(fǎng)問(wèn)數(shù)據(jù)會(huì)導(dǎo)致單節(jié)點(diǎn)需要更多的帶寬,更高的網(wǎng)絡(luò)延遲。
DLI服務(wù)架構(gòu)
超高IO云盤(pán)的讀寫(xiě)時(shí)延只有1ms甚至500ns,?OBS元數(shù)據(jù)操作延遲10ms左右,差一個(gè)數(shù)量級(jí)。
針對(duì)該問(wèn)題,DLI服務(wù)引入Alluxio分布式緩存組件,支持分布式內(nèi)存+本地SSD緩存,減少數(shù)據(jù)讀取路徑,并大幅減少南北向網(wǎng)絡(luò)流量。支持CarbonData等高壓縮比列存文件格式,利用列存和索引盡量減少單次計(jì)算任務(wù)讀取的數(shù)據(jù)量。
DLI?服務(wù)使用最新M3NE類(lèi)型虛擬機(jī)構(gòu)建計(jì)算集群,M3NE使用Intel?Xeon?SkyLake全新一代CPU,配套華為自研25GE智能高速網(wǎng)卡,提供超高的網(wǎng)絡(luò)性能。
接下來(lái)我們DLI服務(wù)將進(jìn)一步降低用戶(hù)計(jì)算成本,提高計(jì)算效率,減少耗能
1、計(jì)算集群支持RoCE網(wǎng)絡(luò)
RoCE(RDMA?over?Converged?Ethernet)是一種允許通過(guò)以太網(wǎng)使用遠(yuǎn)程直接內(nèi)存訪(fǎng)問(wèn)(RDMA)的網(wǎng)絡(luò)協(xié)議,能大幅減少網(wǎng)絡(luò)IO占用的CPU,甚至只需5%的CPU就能跑滿(mǎn)40Gbps的網(wǎng)卡。
大數(shù)據(jù)組件使用RoCE網(wǎng)絡(luò)能大幅減少計(jì)算集群東西向流量占用的CPU資源。
2、基于ARM構(gòu)建計(jì)算集群
基于華為自研的ARM架構(gòu)服務(wù)器構(gòu)建計(jì)算集群能大幅減少計(jì)算集群成本,?并降低電力消耗。
大數(shù)據(jù) 網(wǎng)絡(luò)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶(hù)投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。