亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析
841
2022-05-30
1.2.7 Spark與Hadoop
如前所述,Hadoop和Spark兩者是緊密關聯的,它們有共同的歷史,核心的并行處理概念也有共通之處,比如無共享和數據本地化。下面我們了解一下Hadoop和Spark一般是如何共同使用的。
1.以HDFS作為Spark的一種數據源
Spark可以用作Hadoop平臺上的數據,也就是HDFS上數據的處理框架。Spark為讀寫HDFS上的多種文件格式的數據提供了內建支持,包括如下所列:
原生文本文件格式
SequenceFile格式
Parquet格式
此外,Spark還支持Avro、ORC等文件格式。用Spark從HDFS上讀取一個文件非常簡單,如下所示:
從Spark應用向HDFS寫數據也很簡單,如下所示:
2.以YARN作為Spark的一種資源調度器
YARN是Spark應用最常用的進程調度器。因為在Hadoop集群里,YARN通常和HDFS部署在一起,所以使用YARN作為平臺管理Spark應用很方便。
同時,因為YARN管理著Hadoop集群里各節點的計算資源,所以它能在任何可用的地方并發調度Spark的處理任務。這樣,當使用HDFS作為Spark應用的輸入數據源時,YARN可以調度映射任務以充分保證數據本地化,以此在關鍵的初始處理階段最大程度地減小需要跨網傳輸的數據量。
Spark python spark Python
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。