2025年亞洲寵物展覽會、京寵展有哪些亮點
1313
2022-05-28
1. 背景介紹
Apache Spark是專門為大規模數據處理而設計的快速、通用的并行數據處理框架引擎,能夠幫助用戶開發快速、統一的大數據應用。和傳統的Hadoop相比,Spark通過內存計算方式來避免一個MapReduce工作中多個任務對同一個數據集進行計算時的I/O瓶頸。Spark作為一個內存計算框架,具有批處理、流處理、SQL查詢、文本處理、機器學習等多種能力。當前Spark集群通常以ECS+磁盤(云盤或者本地盤)配合一系列開源組件組成。集群創建后,在業務高峰期會存在資源不足情況,需要擴容來滿足業務需求;在業務低峰期,需要根據業務量及時的縮容資源,避免資源的浪費和成本的增加。
2. 傳統Spark集群存在的問題
對于用戶業務量不是很大或者業務存在周期性的場景:如果該用戶一直占有集群的所有資源,則會造成很大的計算資源浪費和成本的增加;如果對該用戶的集群資源回收,下次再利用的時候需要重新創建集群并安裝業務所需的鏡像,則會浪費很大的時間去準備環境,造成了很大的不便。
對于多個用戶使用同一個集群的場景:比如用戶A使用的資源比較少,但是使用資源的業務是持續的。用戶B使用的資源量大,但是業務是間斷性的。當B用戶使用大量計算資源時,A用戶提交的作業任務有可能會一直處于請求資源狀態,不能及時的處理作業任務,造成任務的積壓。
圖1 多用戶共享集群作業串行執行情況
如何將上述兩種場景融合在一起,不同的用戶作業之間不相互受影響,同時能夠快速的為用戶分配所需資源,是衡量集群彈性伸縮方案優劣的重要指標,也是用戶非常關心和頭疼的問題。
3. DLI多租戶共享default隊列自動擴縮容方案
DLI服務預置了名稱為“default”的SQL隊列,當用戶在不確定所需隊列容量或者沒有可創建隊列空間的情況下,可以使用該隊列執行作業。使用該隊列時,按掃描量計費。該隊列的集群基于華為云CCE創建,在繼承了spark on k8s各種特性的同時,相較于Hadoop集群,在集群擴縮容性能、資源隔離等方面做了很大優化。
圖2 多用戶共享集群作業并行執行情況
3.1 用戶不需要單獨購買隊列,按需秒級分配資源
當用戶提交作業在隊列上時,立即分配計算資源開始執行作業。傳統的共享集群計算資源有限,而且按照先來先占有的方式分配資源,導致用戶經常獲取不到計算資源,作業長期處理等待狀態。優化后的資源池更大,同時預留了資源池緩沖區,用戶計算資源分配方式變為每個用戶單獨分配資源,不再等待其它用戶先提交的作業執行完再執行后續用戶提交的作業。如果用戶對計算資源使用不是很頻繁的場景,該方案在保障用戶計算資源的同時,為用戶節省了集群創建時間,減少了用戶作業等待時間。
3.2 多用戶計算資源安全隔離,互不影響
在default隊列上,DLI為不同用戶分配了不同的計算資源,各個用戶的計算資源互不干擾。這就避免了不同用戶之間計算資源的相互競爭和影響,讓用戶申請到的計算資源“全心”為申請者服務。
3.3 集群計算資源不足,快速擴容
圖3 多用戶共享集群作業觸發集群擴容
當用戶很多即將用完DLI為用戶預留的計算資源時,DLI提供了基于閾值的彈性擴縮容能力。比如:當集群資源被占用90%時,DLI會啟動集群物理資源擴容,該物理節點擴容會預置安裝用戶的公共鏡像、DLI的管理調度鏡像等,一般2分鐘內即可完成。由于是提前預置資源,而新用戶提交作業時,是從資源緩存池取出所需資源,不用等待十幾分鐘甚至更長時間的物理資源擴容等待,為用戶提供了很好的作業執行體驗。即使大量用戶同時請求資源,DLI后臺的物理集群也能夠在幾分鐘內完成大量物理機器節點的擴容,用戶不用擔心長時間的等待。
3.4 集群計算資源過于充足,觸發縮容
當用戶資源過于充足時,DLI會觸發基于閾值的縮容。比如:當集群資源被占用60%時,DLI會啟動集群物理資源縮容,節省了大量的非必須計算成本。在縮容時,集群節點并不是立即釋放,而且首先將沒有運行作業的節點放入釋放緩沖池,如果在一定時間內,沒有新的作業到來觸發擴容,則釋放緩沖池中的計算節點。如果有新的作業到來觸發擴容,則將釋放緩沖池中的節點重新加入計算資源池。
圖4 多用戶共享集群空閑時觸發縮容
4. 總結
華為云DLI數據湖探索服務在開源Spark基礎上進行了大量的性能優化與服務化改造,兼容Apache Spark生態和接口,動態資源分配的開啟和多用戶共享default集群彈性擴縮容使用,在充分使用計算資源的基礎上,節省了用戶的成本,優化了用戶使用體驗。同時,對于用戶按需專屬隊列,DLI已經支持用戶指定擴縮容計劃的定時擴縮容。用戶根據自己的業務繁忙周期,制定自己所需的隊列擴縮容計劃,定時預置滿足業務所需的計算資源,同時節省了成本。下一步DLI即將放開基于用戶資源負載的用戶專屬集群自動擴縮容能力。
spark 數據湖探索 DLI EI企業智能 智能數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。