中文字幕亚洲综合精品一区,亚洲男人天堂2020,亚洲一级毛片免费看

網友投稿 713 2025-04-02

YARN概述

YARN是什么

Apache Hadoop YARN（Yet Another Resource Negotiator，另一種資源協調者）是一種新的 Hadoop 資源管理器，它是一個通用資源管理系統，可為上層應用提供統一的資源管理和調度，它的引入為集群在利用率、資源統一管理和數據共享等方面帶來了巨大好處。

YARN在Hadoop生態系統中的位置:

YARN產生的背景

隨著互聯網高速發展導致數據量劇增，MapReduce 這種基于磁盤的離線計算框架已經不能滿足應用要求，從而出現了一些新的計算框架以應對各種場景，包括內存計算框架、流式計算框架和迭代式計算框架等，而MRv1 不能支持多種計算框架并存。

YARN基本架構YARN基本架構

ResourceManager(RM)

ResourceManager負責集群資源的統一管理和調度，承擔了 JobTracker 的角色，整個集群只有“一個”，總的來說，RM有以下作用：

1.處理客戶端請求

2.啟動或監控ApplicationMaster

3.監控NodeManager

4.資源的分配與調度

NodeManager(NM)

NodeManager管理YARN集群中的每個節點。NodeManager 提供針對集群中每個節點的服務，從監督對一個容器的終生管理到監視資源和跟蹤節點健康。MRv1 通過slot管理 Map 和 Reduce 任務的執行，而 NodeManager 管理抽象容器，這些容器代表著可供一個特定應用程序使用的針對每個節點的資源。

NM有以下作用:

1.管理單個節點上的資源

2.處理來自ResourceManager的命令

3.處理來自ApplicationMaster的命令

ApplicationMaster(AM)

每個應用有一個，負責應用程序的管理。ApplicationMaster 負責協調來自 ResourceManager 的資源，并通過 NodeManager 監視容器的執行和資源使用（CPU、內存等的資源分配）。請注意，盡管目前的資源更加傳統（CPU 核心、內存），但未來會支持新資源類型（比如圖形處理單元或專用處理設備）。

AM有以下作用：

1.負責數據的切分

2.為應用程序申請資源并分配給內部的任務

3.任務的監控與容錯

Container

●Container 是 YARN 中的資源抽象，它封裝了某個節點上的多維度資源，如內存、CPU、磁盤、網絡等，當AM向RM申請資源時，RM為AM返回的資源便是用Container表示的。YARN會為每個任務分配一個Container，且該任務只能使用該Container中描述的資源。Container有以下作用：

1.對任務運行環境進行抽象，封裝CPU、內存等多維度的資源以及環境變量、啟動命令等任務運行相關的信息

Spark on YARN配置與部署

編譯時包含YARN:

mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.7.1 -Phive -Phive-thriftserver -Psparkr -DskipTests clean package

/make-distribution.sh --name hadoop2.7.1 --tgz -Psparkr -Phadoop-2.6 -Dhadoop.version=2.7.1 -Phive -Phive-thriftserver –Pyarn

注意：

hadoop的版本跟你使用的hadoop要對應，建議使用CDH或者HDP的hadoop發行版，對應關系已經處理好了。

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

Spark on YARN的安裝

Spark On YARN安裝非常簡單，只需要下載編譯好的Spark安裝包，在一臺帶有Hadoop Yarn客戶端的機器上解壓即可

基本配置

配置HADOOP_CONF_DIR或者YARN_CONF_DIR環境變量，讓Spark知道Yarn的配置信息。有三種方式：

配置在spark-env.sh中

在提交Spark應用之前export

配置到操作系統的環境變量中

如果使用的是HDP，請在spark-defaults.conf中加入：

spark.driver.extraJavaOptions -Dhdp.version=current

spark.yarn.am.extraJavaOptions -Dhdp.version=current

spark-shell運行在YARN上

登陸安裝Spark那臺機器

./spark-shell --master yarn

提交Spark job給YARN

./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] [app options]

例子：

./spark-submit --master yarn --class com.dajiangtai.spark.MyWordCout ~/learning-saprk-1.0-SNAPSHOT.jar /tmp/test /tmp/output

Spark on YARN運行架構解析

回顧Spark基本工作流程

以SparkContext為程序運行的總入口，在SparkContext的初始化過程中，Spark會分別創建DAGScheduler作業調度和TaskScheduler任務調度兩級調度模塊。其中作業調度模塊是基于任務階段的高層調度模塊，它為每個Spark作業計算具有依賴關系的多個調度階段（通常根據shuffle來劃分），然后為每個階段構建出一組具體的任務（通常會考慮數據的本地性等），然后以TaskSets（任務組）的形式提交給任務調度模塊來具體執行。而任務調度模塊則負責具體啟動任務、監控和匯報任務運行情況。

YARN standalone/YARN cluster

YARN standalone是0.9及之前版本的叫法，1.0開始更名為YARN cluster

yarn-cluster(YarnClusterScheduler)

Driver和AM運行在起，Client單獨的:

./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] [app options]

YARN standalone/YARN cluster

Spark Driver首選作為一個ApplicationMaster在Yarn集群中啟動，客戶端提交給ResourceManager的每一個job都會在集群的worker節點上分配一個唯一的ApplicationMaster,由該ApplicationMaster管理全生命周期的應用。因為Driver程序在YARN中運行，所以事先不用啟動Spark Master/Client，應用的運行結果不能再客戶端顯示(可以在history server中查看)

YARN standalone/YARN cluster

YARN client

yarn-client(YarnClientClusterScheduler)

Client和Driver運行在一起(運行在本地)，AM只用來管理資源

./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode client [options] [app options]

YARN client

在Yarn-client模式下，Driver運行在Client上，通過ApplicationMaster向RM獲取資源。本地Driver負責與所有的executor container進行交互，并將最后的結果匯總。結束掉終端，相當于kill掉這個spark應用。一般來說，如果運行的結果僅僅返回到terminal上時需要配置這個。

如何選擇:

如果需要返回數據到client就用YARN client模式

數據存儲到hdfs的建議用YARN cluster模式

其他配置和注意事項

如何更改默認配置

spark_home/conf/spark-defaults.conf，每個app提交時都會使用他里面的配置

--conf PROP=VALUE，為單獨的app指定個性化參數

環境變量

spark_home/conf/spark-defaults.conf，每個app提交時都會使用他里面的配置

spark.yarn.appMasterEnv.[EnvironmentVariableName]

相關配置

特別注意:

Spark on YARN

在cluster mode下，yarn.nodemanager.local-dirs對?Spark executors 和Spark driver都管用， spark.local.dir將被忽略

在client mode下， Spark executors 使用yarn.nodemanager.local-dirs， Spark driver使用spark.local.dir

--files and –archives支持用#映射到hdfs

--jars

至此.

spark Yarn

Spark為什么快，Spark SQL 一定比 Hive 快嗎">Spark為什么快，Spark SQL 一定比 Hive 快嗎

713 2025-04-02

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

713 2025-04-02

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

713 2025-04-02

Spark on YARN

Spark為什么快，Spark SQL 一定比 Hive 快嗎">Spark為什么快，Spark SQL 一定比 Hive 快嗎

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接