GaussDB(DWS)《構建與崩塌之如何做事》
3692
2022-05-29
進入2019年,人們已經不再懷疑AI人工智能的重要性。Granter在2018年發布的預測認為,2022年人工智能驅動的商業價值將高達3.9萬億美元。此外,Gartner還認為2018年是人工智能技術爆發的一年,其增長曲線非常陡峭,到2020年之后的增長曲線將趨于平坦。這也就是說,2019年將是人工智能發揮作用的關鍵之年。
人工智能在企業中的落地,主要是基于企業的數據中心;而在計算、存儲與網絡這數據中心的三大難關中,網絡是最后也是最難的難關。因為不論是計算還是存儲,都主要通過X86服務器及軟件的方式實現,業界已經在這兩個領域取得了階段性進展。但網絡作為CT技術,并不是很多IT企業的長項,而網絡的性能又嚴重制約著人工智能算力的發揮。
2019年1月9日,華為發布了業界首款面向AI時代的數據中心交換機CloudEngine 16800。華為網絡產品線總裁胡克文表示:“萬物互聯的智能世界正加速到來,數據中心正成為5G、人工智能等新型基礎設施的核心。華為率先將AI技術引入數據中心交換機,引領數據中心網絡從云時代邁入AI時代。”
網絡性能制約AI算力
為什么說網絡性能制約著AI算力的百分之百發揮?這是因為網絡是所有企業IT和數據中心的基礎,而到了云與人工智能時代的軟件定義網絡基礎架構時代,網絡將起到更加關鍵性的作用。在Gartner的2019十大基礎設施和運營的趨勢預測中,也專門提到了網絡的重要性。Gartner強調2019年及以后必須關注如何讓網絡更快,人工智能、邊緣計算、5G等新業務都需要網絡的敏捷性,而2019年將是打造網絡敏捷性的關鍵一年。
胡克文在談到AI受到數據中心網絡的影響時,認為有三大挑戰:丟包率、帶寬以及故障定位。首先是丟包率,傳統的以太網丟包率為0.1%,這意味著算力只能發揮50%,這是華為通過實際測試發現的問題。也就是說為了百分百發揮AI算力,AI時代的數據中心網絡應該達到零丟包。
其次是大帶寬,因為即使做到零丟包但網絡帶寬也在制約AI算力的發揮。未來的五年將出現數字洪流,而隨著互聯網流量的增長,將導致AI數據的集中以及更大規模的數據中心。這就要求更高的帶寬,特別是服務器與服務器間的互訪將更頻繁。而數據中心服務器支持的帶寬也已經從10G到25G再到100G,以超乎想象的速度發展,但即便是100G的數據中心網絡也將無法支撐即將到來的數字洪流挑戰。
第三是今天的數據中心中,計算網絡、存儲網絡和數據網絡已經三網合一了,這帶來了極大的運維挑戰。當遇到故障時,可能數據中心的技術人員花幾天幾夜都無法定位問題源。而當業務部門發現問題后,再找到網絡技術人員時,留給網絡技術人員解決問題的時間已經所剩無幾。如果還要花費幾天時間才能解決問題,那么網管的運維壓力之大可想而知。
上述三個問題,是面向AI時代的數據中心網絡核心挑戰。胡克文表示,他過去一年見過很多客戶,普遍的反饋是大家過去三年的關注都在云上,而當云的建設初具規模后卻突然發現搞不定網絡,特別是面對AI等新興計算任務。“這個時候,我們在想未來的數據中心網絡應該是什么樣?”
數據中心網絡邁入AI時代
華為發布的AI數據中心交換機CloudEngine 16800作為華為AI發展戰略以及全棧全場景AI解決方案的一個重要組成部分,是業界首款內嵌AI芯片的數據中心交換機,支持高密400G接口、滿足AI時代5倍的流量增長,還將支撐秒級故障識別和分鐘級故障自動定位、使能自動駕駛網絡。
首先是內嵌AI芯片。高性能數據中心集群對網絡丟包異常敏感,華為CloudEngine 16800搭載了高能效AI芯片,通過實時學習訓練能力和獨創的iLossless智能無損交換算法,為以太網實現了無丟包機制以及流量模型的自適應自優化,從而構建一個零丟包、低時延的數據中心網絡,讓AI算力充分發揮,加速人工智能應用創新。
近兩年,深度學習算法取得重大突破,數據處理效率隨后就成為了人工智能規模商用的新瓶頸。為了不斷提升AI的運行效率,業界已經把存儲介質推進到了閃存盤且大幅降低了時延,并通過GPU甚至專用的AI芯片則將處理數據的能力提升了100倍以上。為了進一步降低網絡傳輸中服務器端數據處理的時延,數據中心的網絡協議由TCP/IP推進到了RDMA遠程直接數據存取,也就是網絡層和傳輸層處理都由服務器上的網卡硬件實現,而無須像TCP/IP協議那樣占用CPU的處理資源。那么,當這些都解決了之后,網絡通信時延就將成為短板。
在數據中心里,TCP/IP是唯一的通信協議,但當TCP/IP網絡遇到RDMA網卡,就需要在轉發設備本地引入智能處理,實現零丟包、低時延、高吞吐的無損數據中心網絡。華為主要采取了單流局部調優和整網全局調優兩種方式,用內嵌AI芯片的華為數據中心交換機對網絡狀態實時檢測。基于AI芯片的iLossless智能無損交換算法,可對全網流量進行實時的學習訓練,并根據不同業務流量模型的特點動態設置最優的網絡參數、更精準地控制流量,實現百萬流和基于應用的隊列自適應不同場景的全局網絡自優化能力,保證數據中心網絡在傳輸無丟包基礎上達到最高的吞吐量。
第二是業界最高密度單槽位48 x 400GE。華為CloudEngine 16800,支持從10G到40G到100G再到400G端口的平滑演進,能夠提供業界最高密度的單槽48個或整機768個400GE端口,交換容量是業界的五倍,可以極大的減少核心層設備的數量,簡化網絡的同時提升管理效率。眾所周知,400GE接口標準化工作于2015年啟動,目前針對數據中心應用已經完成標準化,400G時代已經來臨。
為了支持超高密度及其演進,華為CloudEngine 16800在PCB板材、工藝、散熱,供電等多方面都進行了重大技術改進和創新。在PCB板材工藝方面,華為采用新型亞微米無損材料及高分子鍵合技術的制作工藝,將PCB板的電信號傳輸效率提升30%,滿足100G到400G甚至未來800G的兼容和能力演進。而在供電方面,華為提出業界首個雙路輸入智能切換的電源模塊,采用磁吹滅弧和大勵磁技術實現ms級快速切換,21個電源模塊就可以實現原來40個模塊所達到的供電能力和可靠性,電源空間節省50%;線路板上采用矩陣磁和高頻磁技術,可在兩個拇指大小的空間內提供1600W供電能力,使得單位空間的供電效率提升90%。
在散熱方面,華為CloudEngine 16800提供單板級和系統級散熱。其中,CloudEngine 16800采用獨有的碳納米導熱墊和VC相變散熱技術,單板散熱效率較業界提升4倍,整機可靠性提升20%。此外,華為采用了業界首創的混流風扇,可以使得整機散熱效率達到最佳,平均每bit數據的功耗降低50%,相當于每臺每年節省32萬度電、約合26萬元電費,減少碳排放250余噸;加上獨有的磁導率馬達,靜音導流環噪音降低6dB,真正做到綠色節能。
第三是網絡的智能運維和自動駕駛。華為CloudEngine 16800基于內置的AI芯片,可大幅度提升“網絡邊緣”即設備級的智能化水平,使得交換機具備本地推理和實時快速決策的能力。通過FabricInsight網絡分析器提供分布式AI運維架構,可實現秒級故障識別和分鐘級故障自動定位,加速自動駕駛網絡的到來。而基于分布式的AI運維架構,也可大幅提升網絡運維系統的靈活性和可部署性。
華為自2012年進入數據中心網絡市場以來,已服務于全球6400+個用戶,幫助全球各地的互聯網、金融、政府、制造、能源、大企業等多個行業的客戶實現了數字化轉型。2018年,華為輪值董事長徐直軍宣布,華為將人工智能定位為新的通用技術并發布了人工智能發展戰略,全面將人工智能技術引入到智能終端、云和網絡等各個領域。CloudEngine 16800就是華為普惠AI戰略的進一步發展,也是華為在數據中心網絡市場的最新成果。
2017年7月,華為進入了Gartner數據中心網絡魔力象限的挑戰者象限,華為CloudFabric云數據中心網絡解決方案已成為全球企業構建云數據中心網絡的首選方案之一。華為CloudFabric解決方案提供基于標準API的接口,可與第三方云平臺、控制器、VAS設備、自動化管理工具等協同工作,聯合VMware 、Red Hat、Mirantis、EasyStack、F5、Ansible等20多家合作伙伴共同構建多層次SDN生態鏈,提供成熟的集成部署能力。
隨著CloudEngine 16800的推出再加上CloudFabric解決方案,華為可幫助企業構建更為智能的網絡、自主響應應用的策略以及網絡的自我優化,特別是把AI廣泛應用于數據中心網絡的規劃、部署、運維到調優等各環節,實現網絡管理和運維的自動化和智能化,打造應用驅動的數據中心網絡,實現網絡敏捷性。2019年,CloudEngine 16800將重新定義數據中心網絡的代際切換,幫助企業使能和加速AI商用進程,引領數據中心進入AI時代。(文/寧川)
華為云APP 云計算
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。