走近數(shù)據(jù)中心大二層網(wǎng)絡(luò)
傳統(tǒng)數(shù)據(jù)中心三層組網(wǎng)架構(gòu)
政府部門或者金融機構(gòu)等大型企業(yè)的數(shù)據(jù)中心中服務(wù)器的規(guī)模可能會達到2000臺以上。一般情況下,數(shù)據(jù)中心網(wǎng)絡(luò)都會進行服務(wù)器的分區(qū)管理,單個業(yè)務(wù)分區(qū)規(guī)模不大,此時可以采用下圖所示的標準三層架構(gòu)。
在這種組網(wǎng)方式中,核心層是整個數(shù)據(jù)中心網(wǎng)絡(luò)的樞紐,核心設(shè)備通常部署2-4臺大容量高端框式交換機,可以是獨立部署,也可以通過CSS、iStack虛擬化技術(shù)后成組部署。分區(qū)內(nèi)的匯聚層和接入層通過傳統(tǒng)CSS、iStack、xSTP等技術(shù)實現(xiàn)二層破環(huán),也可在匯聚層和接入層應(yīng)用縱向虛擬化技術(shù)(如SVF)實現(xiàn)接入層的簡單管理及節(jié)點擴展。
為什么采用這種架構(gòu),因為架構(gòu)成熟(廢話),二三層網(wǎng)絡(luò)技術(shù)成熟,部署成熟,也符合數(shù)據(jù)中心分區(qū)份模塊的特點,總體來說,是運行了多年的成熟實惠大禮包,買不到吃虧,買不到上當。
挑戰(zhàn)來了
隨著20年代初的漸漸遠去,網(wǎng)絡(luò)人可以滿意的回想,他們已經(jīng)搞定了網(wǎng)絡(luò)協(xié)議的大部分問題。
凡是能被組件化的,能被分布式的,能被備份的、升級的、安全加固的,從不間斷轉(zhuǎn)發(fā)(NSF)到不間斷路由(NSR)最后到不間斷服務(wù)(NSS),被性能優(yōu)化的(各種FRR),被組網(wǎng)的(局域,廣域)。路由(RIP,OSPF,ISIS,BGP)不行加標簽(MPLS),標簽不行加VPN成隧道(GRE,TE,VPLS, VPWS),凡是能做的都做到了,整個網(wǎng)絡(luò)丁丁當當,忙忙碌碌。提了一堆普遍重要神氣的國際標準,RFC寫的整整齊齊。當整個三層協(xié)議幾個人就可以維護的時候,網(wǎng)絡(luò)人已經(jīng)覺得除了硬件更強以外,沒多少事可以干了。
辯證思維教育告訴我們,完美事物是不存在的。虛擬技術(shù)就像那只蝴蝶的翅膀,悄悄的扇了一下,數(shù)據(jù)中心的三層組網(wǎng)架構(gòu)就轟然倒塌了。
虛擬技術(shù)把一臺服務(wù)器虛化成了多臺邏輯服務(wù)器,每個VM都可以獨立運行,有自己的OS、APP,當前也有自己獨立的MAC地址和IP地址,它們通過服務(wù)器內(nèi)部的虛擬交換機(vSwitch)與外部實體網(wǎng)絡(luò)連接。
對于虛擬技術(shù),數(shù)據(jù)中心怎么看也只是個吃瓜群眾,吃著吃著,啊~,發(fā)現(xiàn)自己是瓜。
這是因為虛擬技術(shù)有個伴生的需求:虛擬機動態(tài)遷移。就是在保證虛擬機上服務(wù)正常運行的同時,將一個虛擬機系統(tǒng)從一個物理服務(wù)器移動到另一個物理服務(wù)器的過程。大白話就是動態(tài)遷移就是虛擬機搬家(不是同一個物理機),搬家的時候,需要最終用戶對搬家無感,虛擬機繼續(xù)正常的干活,離崗不離職,真正的全天時全天候無休為用戶服務(wù)。管理員能夠在不影響用戶正常使用的情況下,靈活調(diào)配服務(wù)器資源,或者對物理服務(wù)器進行維修和升級。
為了保證遷移時業(yè)務(wù)不中斷,就要求在遷移時,不僅虛擬機的IP地址不變,而且虛擬機的運行狀態(tài)也必須保持原狀(例如TCP會話狀態(tài)),所以虛擬機的動態(tài)遷移只能在同一個二層域中進行,而不能跨二層域遷移。虛擬機心想我可不是小靈通的命,要跨AZ,要跨Region,要冰激凌,要人民幣,要走向真正移動的星辰大海。
大二層網(wǎng)絡(luò)面臨的問題
既然要走向星辰大海,那就把自己的地盤擴大成大海。把所有服務(wù)器都納入一個二層網(wǎng)絡(luò)(大于10000臺以上)。納入之前,我們先分析一下大二層網(wǎng)絡(luò)的要求點:由于虛擬機遷移這個直接需求必須要求虛擬機在遷移前后保持IP地址不變,那么所有服務(wù)器必須要通過一個二層網(wǎng)絡(luò)進行連接。那么這個二層網(wǎng)絡(luò)有什么要求呢?
1:大,在一個數(shù)據(jù)中心服務(wù)器數(shù)量動輒上萬甚至十萬級別的今天,可以想象,我們需要一個足夠大的二層網(wǎng)絡(luò)來連接數(shù)量巨大的服務(wù)器。
2:快,服務(wù)器數(shù)量的增加導致業(yè)務(wù)吞吐量增加,東西向流量增加,要求網(wǎng)絡(luò)中每個節(jié)點都能提供線速轉(zhuǎn)發(fā)的能力,并且網(wǎng)絡(luò)中的鏈路必須盡可能的都利用起來,保證數(shù)據(jù)中心的網(wǎng)絡(luò)帶寬,數(shù)據(jù)的轉(zhuǎn)發(fā)最好是能通過一條最短的路徑來進行。
先看看傳統(tǒng)的VLAN+xSTP二層技術(shù)不能把所有服務(wù)器都劃到同一個二層域。為了提供網(wǎng)絡(luò)的可靠性,一般會采用設(shè)備冗余和鏈路冗余,傳統(tǒng)架構(gòu)由于成熟有加,財大氣粗,往往是兩種措施都采用。結(jié)果就是環(huán)路(圖中藍色圈,紅色圈)無處不在。二層網(wǎng)絡(luò)處于一個廣播域下,又沒有TTL,無限循環(huán)之下,就會形成廣播風暴,瞬間導致端口阻塞和設(shè)備癱瘓。
VLAN通過劃分VLAN來縮小廣播域的規(guī)模來減小環(huán)路,STP(各種STP家族,俗稱xSTP)主要是切斷備份數(shù)據(jù)轉(zhuǎn)發(fā)減少環(huán)路,兩者結(jié)合,對于小二層(主機數(shù)量不超過1K)夠用了。但是大二層中,VLAN是縮小網(wǎng)絡(luò),天生就和擴大網(wǎng)絡(luò)相克。xSTP的節(jié)點過多,網(wǎng)絡(luò)收斂性能會成指數(shù)級下降,成為擴大網(wǎng)絡(luò)的瓶頸。
總體來說,傳統(tǒng)三層網(wǎng)絡(luò)架構(gòu)不支持大二層網(wǎng)絡(luò),大二層網(wǎng)絡(luò)路在何方?
如何實現(xiàn)大二層網(wǎng)絡(luò)
在最近十來年,很多人提出了大二層的網(wǎng)絡(luò)解決方案,基本上都是圍繞著怎么解決環(huán)路,總結(jié)歸納一下,總體有三個不同的思路
化繁為簡
坐二學三
Overlay
產(chǎn)生環(huán)路的原因是冗余鏈路和冗余設(shè)備,樹形結(jié)構(gòu)是沒有環(huán)路的。那么有沒有什么辦法在設(shè)備、鏈路冗余的基礎(chǔ)上又保持樹型網(wǎng)絡(luò)的結(jié)構(gòu)呢? 這樣既能保證可靠性,又天然無環(huán)。基于這樣的設(shè)想,簡單粗暴、直接有效的網(wǎng)絡(luò)設(shè)備虛擬化技術(shù)出現(xiàn)了。
TOR套餐模式:通過網(wǎng)絡(luò)設(shè)備虛擬化(多虛一)和鏈路聚合技術(shù),簡化管理和物理配置,提高帶寬利用率,快速故障收斂和方便擴容。
EOR套餐模式:SVF,將不同網(wǎng)絡(luò)層次、不同類型的交換機多虛一,通過縱向整合,網(wǎng)絡(luò)簡化效果也非常明顯,結(jié)構(gòu)更加簡明清晰。
缺點也很明顯:堆疊擴展性是有限度的,協(xié)議是廠家私有的。
仔細研究大二層網(wǎng)絡(luò)的特點,總結(jié)的需求是:需要一個能支持足夠多的設(shè)備,天生沒有環(huán)路,并且鏈路利用率很高的協(xié)議,來部署在我們這個大二層網(wǎng)絡(luò)中。有沒有感覺,我們好像在哪兒見過,你記得嗎,記得那是一個夏天盛開如花。不是,錯了,是路由!具體點,內(nèi)部網(wǎng)關(guān)協(xié)議不就是干這個事情的嗎?
套餐模式:TRILL(ISIS親媽設(shè)計)/SPB基本都是采用ISIS作為其控制屏幕協(xié)議進行拓撲學習計算,用MAC-in-MAC在區(qū)域內(nèi)進行報文傳輸。
這兩個協(xié)議的詳細技術(shù)可以在后續(xù)專門講一下,在這就不展開介紹了。
缺點:關(guān)于TRILL和SPB,不同的廠商有這各自的支持,還在分派中。但是有一點是明確的,這些技術(shù)的部署和實施都是在網(wǎng)絡(luò)設(shè)備上進行的,與服務(wù)器等IT設(shè)施無關(guān),CT廠家全程Cover,IT廠商只是個看客。
如果TRILL/SPB是學習三層協(xié)議先進的技術(shù),那Overlay就是假裝成自己個兒就是三層,理直氣壯的披上三層的外衣,將大二層網(wǎng)絡(luò)疊加在現(xiàn)有的基礎(chǔ)網(wǎng)絡(luò)之上,瞞天過海,暗度陳倉。
Overlay通過用隧道封裝的方式,將源主機發(fā)出的原始二層報文封裝后在現(xiàn)有網(wǎng)絡(luò)中進行透明傳輸,到達目的地之后再解封裝得到原始報文,轉(zhuǎn)發(fā)給目標主機,從而實現(xiàn)主機之間的二層通信。
隧道封裝是很成熟的技術(shù),但是,一般只能點對點建立隧道。如果有很多主機需要二層通信的話,就需要一個全連接的網(wǎng)絡(luò)。真頭大。既然點對點不行,那就面對面?交換機等待已久的機會來了。 眾所周知,“二層交換機”是可以實現(xiàn)下掛主機之間相互二層通信的,而且主機從“二層交換機”的一個端口遷移到另一個端口時,IP地址是可以保持不變的。這樣不就可以實現(xiàn)大二層網(wǎng)絡(luò)的需求了嗎?
Overlay的典型技術(shù)主要有VXLAN、NVGRE、STT等,簡單說一下陣容最豪華的VXLAN技術(shù),它是VMWare和CISCO提出的Overlay技術(shù)方案,采用Mac in UDP的封裝方式,虛擬機發(fā)出的數(shù)據(jù)包在VXLAN接入點(被稱為VTEP)加上VXLAN幀頭后再被封裝在UDP報頭中,并使用承載網(wǎng)絡(luò)的IP/MAC地址作為外層頭進行封裝,承載網(wǎng)絡(luò)只需要按照普通的二三層轉(zhuǎn)發(fā)流程進行轉(zhuǎn)發(fā)即可。
根據(jù)這個設(shè)計,是不是可以看出,VXLAN天然可以支持跨數(shù)據(jù)中心的大二層網(wǎng)絡(luò)的。在這種架構(gòu)下,無論VM是在本數(shù)據(jù)中心內(nèi)遷移,還是跨數(shù)據(jù)中心遷移,都無需變更IP地址。目前在華為云基礎(chǔ)IaaS網(wǎng)絡(luò)數(shù)據(jù)面全部VXLAN化。
VXLAN技術(shù)VXLAN和NVGRE等技術(shù)是服務(wù)器虛擬化的IT廠商主推的大二層網(wǎng)絡(luò)技術(shù)方案,這也很好理解,對于VXLAN和NVGRE技術(shù)來說,報文的封裝/解封裝都是在服務(wù)器內(nèi)部的虛擬交換機vSwitch上進行的,外部網(wǎng)絡(luò)只對封裝后的報文進行普通的二層交換和三層轉(zhuǎn)發(fā),所以技術(shù)控制權(quán)都在IT廠商手里,CT廠商就是一個路人看客了。但是當把Overlay網(wǎng)絡(luò)的接入點部署在TOR等網(wǎng)絡(luò)設(shè)備上時,就需要網(wǎng)絡(luò)設(shè)備來完成VXLAN和NVGRE的報文封裝。一方面對于虛擬化的服務(wù)器來說,網(wǎng)絡(luò)設(shè)備的性能還是要比vSwitch強很多的,用TOR等設(shè)備來進行封裝,性能更好一些。 另外一方面,在TOR上部署Overlay接入點,也可以把非虛擬化的服務(wù)器統(tǒng)一納入Overlay網(wǎng)絡(luò)。CT和IT廠商的和諧共贏局面終于到來了。
后續(xù)關(guān)注
本文簡單了介紹了大二層網(wǎng)絡(luò)的由來和基礎(chǔ)的大二層網(wǎng)絡(luò)解決方案,在數(shù)據(jù)大集中的背景下,企業(yè)產(chǎn)生的數(shù)據(jù)量越來越大,數(shù)據(jù)的重要性也越來越高。出于災(zāi)備、用戶就近接入、提升資源利用率等方面的考慮,在后期的文章中,會介紹跨數(shù)據(jù)中心的網(wǎng)絡(luò)互聯(lián)網(wǎng)方案。
虛擬私有云 VPC
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應(yīng)法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應(yīng)法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。