Spark 任務 參數 優化

網友投稿 1186 2022-05-28

當我們提交Spark作業的時候，Spark作業會啟動Driver進程去運行Application的main()函數，并且創建SparkContext，然后通過SparkContext與集群管理器申請Spark作業所需的資源，即Spark作業所需要的Executor進程。集群管理器會根據提交作業的資源參數設置，為各個工作節點分配相應數量的Executor,以及每個Executor所占用的內存數量和CPU Core核心數。

當資源分配完成以后，Driver便會開始運行我們的作業代碼，過程中，Driver會將我們的Spark作業根據邏輯拆解為多個stage，并將每個stage拆分為多個最小計算單元task，分配到各個Executor上去執行。當一個Stage的所有task執行完畢后，便會開始下一個stage的調度，直到我們的作業代碼執行完畢。

在作業的運行過程中，Executor主要占用的資源分別是Cpu核心數和內存大小，合理的分配資源的大小，可以有效的提高我們的作業執行效率。

我們的Cpu的每一個core在同一時間只能執行一個線程，而我們的Excutor每次都會接收到多個task任務，每個task任務會占用一個線程，Excutor以多線程并發形式運行，眾所周知，線程數量并非越多越好，只有當Cpu核心數與線程數數量相對合理，才能更加高效的處理task任務。

內存方面，Executor的內存主要分為三塊，分別是執行task任務所需的內存，獲取之前stage輸出的內存,以及RDD持久化所需要的內存，默認占比為2:2:6。

當了解了Spark的運行原理以及資源的使用方式以后，我們就可以通過修改Spark提供的資源參數,設置Spark作業的資源分配，以達到性能的優化。主要參數配置如下:

1.???? num-executors

excutor的個數：需要根據現有資源的大小情況進行合理配置,在考慮每個excutor的內存和核心數情況下,設置合理的個數以免資源的浪費。

2.???? executor-memory

executor的內存大?。嚎紤]作業情況不要設置的過小，過小可能會造成JVM OOM異常，占用的內存總量為num-executors*excutor-memory，需要注意不要超過當前資源的最大內存總量。

3.???? executor- cores

executor的單個core核心個數：在資源允許的情況下Excutor的核心數越多，作業的執行效率就會越高，占用的Cpu core總量為num-executors*excutor-cores，需要注意不要超過當前資源Cpu cores的總數。

4.???? spark.default.parallelism

stage劃分的task個數：task個數可以根據你設置的Executor的個數和Cpu核心數進行設置，一般推薦為num-executors*executor-cores的2~3倍。

5.???? spark.shuffle.memoryFraction

Spark任務參數優化

shuffle操作內存在Executor內存中的占比：默認值為0.2，即0.2*executor-memory的內存會被用來處理shuffle操作的數據，當內存不夠的時候，會將數據寫入磁盤保存，從而導致性能降低，當shuffle操作較多時，可以提高該占比。

6.???? spark.storage.memoryFraction

持久化操作內存在Executor內存中的占比：默認值為0.6，即0.6*executor-memory的內存會被用來保存持久化的RDD的數據，當內存不夠的時候，會將數據寫入磁盤保存，從而導致性能降低，當持久化操作較多時，可以提高該占比。

7.???? driver-memory

driver進程的內存大小：一般使用默認值即可，當Driver上的數據過多出現內存溢出的情況下，需要調整該參數。

EI企業智能 AI

標簽：Spark 任務參數優化

BI報表實現，提升業績破題的關鍵!">BI報表實現，提升業績破題的關鍵!

1186 2022-05-28

BI報表可視化，提升業務決策效率">BI報表可視化，提升業務決策效率

1186 2022-05-28

BI報表的優勢">BI報表的優勢

1186 2022-05-28

Spark 任務 參數 優化

BI報表實現，提升業績破題的關鍵!">BI報表實現，提升業績破題的關鍵!

BI報表可視化，提升業務決策效率">BI報表可視化，提升業務決策效率

BI報表的優勢">BI報表的優勢

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

BI報表實現，提升業績破題的關鍵!">BI報表實現，提升業績破題的關鍵!

BI報表可視化，提升業務決策效率">BI報表可視化，提升業務決策效率

BI報表的優勢">BI報表的優勢

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

BI報表實現，提升業績破題的關鍵!">BI報表實現，提升業績破題的關鍵!

BI報表可視化，提升業務決策效率">BI報表可視化，提升業務決策效率

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦