<fieldset id="a8m2s"></fieldset>

2021年 大數據 Spark（七）：應用架構基本了解

網友投稿 753 2022-05-29

Spark 應用架構-了解

Driver 和Executors

從圖中可以看到Spark Application運行到集群上時，由兩部分組成：Driver Program和Executors。

第一、Driver Program

相當于AppMaster，整個應用管理者，負責應用中所有Job的調度執行;

2021年大數據Spark（七）：應用架構基本了解

運行JVM Process，運行程序的MAIN函數，必須創建SparkContext上下文對象；

一個SparkApplication僅有一個；

第二、Executors

相當于一個線程池，運行JVM Process，其中有很多線程，每個線程運行一個Task任務，一個Task運行需要1 Core CPU，所有可以認為Executor中線程數就等于CPU Core核數；

一個Spark Application可以有多個，可以設置個數和資源信息；

Driver?Program是用戶編寫的數據處理邏輯，這個邏輯中包含用戶創建的SparkContext。SparkContext 是用戶邏輯與Spark集群主要的交互接口，它會和Cluster Manager交互，包括向它申請計算資源等。 Cluster Manager負責集群的資源管理和調度，現在支持Standalone、Apache Mesos和Hadoop的 YARN。Worker Node是集群中可以執行計算任務的節點。 Executor是在一個Worker Node上為某應用啟動的一個進程，該進程負責運行任務，并且負責將數據存在內存或者磁盤上。Task 是被送到某個Executor上的計算單元，每個應用都有各自獨立的 Executor，計算最終在計算節點的 Executor中執行。

用戶程序從最開始的提交到最終的計算執行，需要經歷以下幾個階段：

1）、用戶程序創建 SparkContext 時，新創建的 SparkContext 實例會連接到 ClusterManager。 Cluster Manager 會根據用戶提交時設置的 CPU 和內存等信息為本次提交分配計算資源，啟動 Executor。

2）、Driver會將用戶程序劃分為不同的執行階段Stage，每個執行階段Stage由一組完全相同Task組成，這些Task分別作用于待處理數據的不同分區。在階段劃分完成和Task創建后， Driver會向Executor發送 Task；

3）、Executor在接收到Task后，會下載Task的運行時依賴，在準備好Task的執行環境后，會開始執行Task，并且將Task的運行狀態匯報給Driver；

4）、Driver會根據收到的Task的運行狀態來處理不同的狀態更新。 Task分為兩種：一種是Shuffle Map Task，它實現數據的重新洗牌，洗牌的結果保存到Executor 所在節點的文件系統中；另外一種是Result Task，它負責生成結果數據；

5）、Driver 會不斷地調用Task，將Task發送到Executor執行，在所有的Task 都正確執行或者超過執行次數的限制仍然沒有執行成功時停止；

Job、DAG和Stage

還可以發現在一個Spark Application中，包含多個Job，每個Job有多個Stage組成，每個Job執行按照DAG圖進行的。

其中每個Stage中包含多個Task任務，每個Task以線程Thread方式執行，需要1Core CPU。

可以看到Spark為應用程序提供了非常詳盡的統計頁面，每個應用的Job和Stage等信息都可以在這里查看到。通過觀察應用詳情頁的各個信息，對進一步優化程序，調整瓶頸有著重要作用，后期綜合項目案例詳細講解。

Spark Application程序運行時三個核心概念：Job、Stage、Task，說明如下：

Task：被分配到各個 Executor 的單位工作內容，它是 Spark 中的最小執行單位，一

般來說有多少個 Paritition（物理層面的概念，即分支可以理解為將數據劃分成不同

部分并行處理），就會有多少個 Task，每個 Task 只會處理單一分支上的數據。

Job：由多個 Task 的并行計算部分，一般 Spark 中的 action 操作（如 save、collect，后面進一步說明），會生成一個 Job。

Stage：Job 的組成單位，一個 Job 會切分成多個 Stage，Stage 彼此之間相互依賴順序執行，而每個 Stage 是多個 Task 的集合，類似 map 和 reduce stage。

spark 大數據

標簽：2021年大數據 Spark

大數據 服務上云的思考">大數據 服務上云的思考

753 2022-05-29

國美&華為，戰略合作簽約！

753 2022-05-29

面對 大數據Excel 如何做到數據的快速整理及Excel 的美化（面對大數據時代我們應該怎么做）">面對 大數據Excel 如何做到數據的快速整理及Excel 的美化（面對大數據時代我們應該怎么做）

753 2022-05-29

2021年 大數據 Spark（七）：應用架構基本了解

大數據 服務上云的思考">大數據 服務上云的思考

國美&華為，戰略合作簽約！

面對 大數據Excel 如何做到數據的快速整理及Excel 的美化（面對大數據時代我們應該怎么做）">面對 大數據Excel 如何做到數據的快速整理及Excel 的美化（面對大數據時代我們應該怎么做）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

2021年大數據Spark（七）：應用架構基本了解

大數據服務上云的思考">大數據服務上云的思考

面對大數據Excel 如何做到數據的快速整理及Excel 的美化（面對大數據時代我們應該怎么做）">面對大數據Excel 如何做到數據的快速整理及Excel 的美化（面對大數據時代我們應該怎么做）

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

2021年大數據 Spark（七）：應用架構基本了解

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦