“存算分離”省著花,美圖海量數據處理背后的英雄居然是它!
隨著5G和AIoT技術的發展,數據量指數級增長,新的數據業務層出不窮。作為數字化時代的先行者?,互聯網企業利用大數據平臺進行客戶體驗提升、網絡優化、精準營銷等業務, “流量變現”帶來了豐厚的經濟效益,同時海量數據的高速有效處理分析問題也日益凸顯,為應對數據量的激增,企業需要通過不斷擴容帶寬、CDN,增加計算、存儲等資源,持續大量的成本投入成為制約企業飛速發展的絆腳石,急需一劑降本增效良方來打破桎梏。

傳統大數據中心建設采用存算一體的架構建設,在進行擴容時需按一定的存算配比同步擴充,造成了大量的資源冗余,利用率偏低。領先的互聯網企業已經開始使用大數據存算分離解決方案實現資源價值最大化,存儲與計算資源全面云化、靈活配置、彈性伸縮,降本增效。下面一起來看看美圖的優秀實踐:
作為國內領先的互聯網企業,美圖圍繞著“美”創造了美圖秀秀、美顏相機、美拍、美圖手機等一系列軟硬件產品,讓用戶輕松實現影像變美。自2008年10月成立以來,迅速擴張,海量數據存儲+準實時處理已達XXPB級,每天百億接口調用。
但在持續高速發展的背后,數據量指數級激增,海量數據存儲、處理、分析等問題日益凸顯,何快速通過云化,實現資源利用率提升,降本增效,打破傳統系統建設的數據孤島,成為企業快速發展的關鍵所在。
存算分離+多樣性算力助力美圖降本增效
在美圖原有的大數據中心中,計算和存儲資源緊密耦合。在這樣的集群中,當存儲空間或計算資源不足時,只能通過一定比例對兩者同時擴容。例如在平常時間節點,存儲與計算的資源使用率維持在80%,當達到夜間18:00-22:00或節假日的高峰期時,用戶的集中使用使得新增數據迎來一個波峰?,原有存儲空間就滿足不了業務的發展需求,此時需進行擴容操作,計算與存儲同步擴容的結果導致存儲資源使用率維持在高點,而計算資源利用率不足50%,新擴容的計算資源就被浪費了,經濟效率低。
美圖采用了華為云大數據存算分離方案,對計算與存儲資源進行解耦,存儲不足擴存儲,計算不足擴計算,面對數據激增的浪涌彈性發放,資源靈活部署,計算存儲資源利用率整體提升40%。
存儲方面,美圖原有大數據中心使用原生的Hadoop架構存儲數據,1:3的備份方式使得大量存儲空間被占用,華為獨有的企業級EC可將副本率降低至1:1.09,數據存儲容量由原來的20+PB降低至10+PB,存儲資源優化提升50%。
計算方面,華為云大數據存算分離方案支持多樣性算力,包括裸金屬服務器、云服務器、容器和Serverless在內的多種粒度的算力支持,具備強大的多核處理優勢,對OBS存儲做了針對性的高并發能力優化,同時還對大數據引擎、操作系統層面及JDK等方面進行優化,使得分布式大數據處理性能提升20%。面對手機端、APP、不同區域不同部門的使用場景均能輕松應對,計算資源優化超過10%。
高效的存算分離架構,領先的存儲技術和計算技術,成為了智能數據湖降本增效的三大利器。
“0改造”平滑遷移上云 異構兼容降成本
美圖原本采用自建IDC(數據中心),但受限于物理介質的影響,IDC機房的空間有限,無法做到快速的擴容,難以支撐業務波峰波谷,在下午18:30的業務高峰期,全國20W終端進行同時下載,高并發將導致30%的失敗率。?若對老舊設備進行更新換代,不僅要考慮采購周期長的問題,高昂的采購成本更是重中之重。
基于存算分離的華為云大數據解決方案完全兼容開源原生接口,全面兼容主流的大數據生態,讓企業大數據應用“0改造”平滑遷移上云。美圖大數據遷移中涉及數百業務、10PB級數據、數千數據表&任務及上千節點數,華為云智能數據湖通過CDM工具批量遷移歷史數據和增量數據,利用Kafka流量或者Nginx流量復制/轉發實時數據,由于華為云大數據與原有IDC的平臺架構不同,為了保持數據信息的一致性,還需通過HistoryServer獲取所有任務執行的Stage的OutPutSize、InPutSize、RecordsNum等信息,確保云上云下執行過程完全一致。最終實現美圖大數據的全面云化,支持不同芯片的混合部署,支持無限擴容,面對業務高峰再不會出現下載失敗的情況。既保護了已有投資,又降低擴容的總成本。
智能數據湖消除數據孤島 釋放數據價值
作為一個坐擁十億級客戶的互聯網企業,美圖的應用已在16億+的設備上進行激活,每月產生60億張照片,月活用戶數超3億,數據總量已達10PB+。海量數據的來源各不相同,各軟件設備如美圖秀秀、美拍、美艷相機等,各區域各業務部門等數據流均屬于自建系統模式,在原有的大數據中心無法做到數據的統一規范、統一管理,海量數據被劃分在一個個集群之中,無法實現互通共享,數據重復拷貝率高,數據使用成本高、效率低。例如在美拍中生成的照片,若通過美圖秀秀進行二次編輯,數據則需通過美拍系統中進行調取復制再轉到美圖秀秀系統中進行處理,數據在流通過程中尤為過五關斬六將,效率低下。
1.???? MRS服務100%兼容開源大數據生態,結合周邊豐富的數據及應用遷移工具,能夠幫助客戶快速完成自建平臺的平滑遷移,整個遷移過程可做到“代碼0修改,業務0中斷”。
MRS支持WrapperFS特性,提供OBS的翻譯能力,兼容HDFS到OBS的平滑遷移,解決客戶將HDFS中的數據遷移到OBS后,即可實現客戶端無需修改自己的業務代碼邏輯的情況下,訪問存儲到OBS的數據。
2.? MRS基于鯤鵬處理器進行軟硬件垂直優化,充分釋放硬件算力,實現高性價比。
MRS支持華為自研鯤鵬服務器,充分利用鯤鵬多核高并發能力,提供芯片級的全棧自主優化能力,使用華為自研的操作系統EulerOS、華為JDK及數據加速層,充分釋放硬件算力,為大數據計算提供高算力輸出。在性能相當情況下,端到端的大數據解決方案成本下降30%。
2020年9月23-26日,華為將于上海舉辦第五屆HUAWEI CONNECT,攜手來自全球的業界思想領袖、商業精英、技術大咖、先鋒企業、生態合作伙伴、應用服務商以及開發者等,共同探討行業數字化的發展方向,展示ICT領域的領先技術、產品和解決方案,分享成功實踐,構筑開放、共贏的健康產業生態,共創行業新價值。
除了上海四天現場外,我們將開啟全球直播&互動(包括主題演講、峰會、專題演講、線上展廳等),為您打造線下線上全場景體驗之旅。敬請關注!
如果有小伙伴已經對智能數據湖做過了解,想進一步研究,當前華為云學院有EI智能數據湖系列課程,可免費學習哦→_→EI智能數據湖系列8大課程免費學,手慢無~
課程目的:提高學員在安裝部署、開發支持、數據遷移及運維管理等方面的專業技能,能夠具備智能數據湖的專業能力。
MapReduce 對象存儲服務 OBS
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。