Spark數據分析:基于Python語言 》 —1.2.7 Spark與Hadoop

      網友投稿 841 2022-05-30

      1.2.7 Spark與Hadoop

      《Spark數據分析:基于Python語言 》 —1.2.7 Spark與Hadoop

      如前所述,Hadoop和Spark兩者是緊密關聯的,它們有共同的歷史,核心的并行處理概念也有共通之處,比如無共享和數據本地化。下面我們了解一下Hadoop和Spark一般是如何共同使用的。

      1.以HDFS作為Spark的一種數據源

      Spark可以用作Hadoop平臺上的數據,也就是HDFS上數據的處理框架。Spark為讀寫HDFS上的多種文件格式的數據提供了內建支持,包括如下所列:

      原生文本文件格式

      SequenceFile格式

      Parquet格式

      此外,Spark還支持Avro、ORC等文件格式。用Spark從HDFS上讀取一個文件非常簡單,如下所示:

      從Spark應用向HDFS寫數據也很簡單,如下所示:

      2.以YARN作為Spark的一種資源調度器

      YARN是Spark應用最常用的進程調度器。因為在Hadoop集群里,YARN通常和HDFS部署在一起,所以使用YARN作為平臺管理Spark應用很方便。

      同時,因為YARN管理著Hadoop集群里各節點的計算資源,所以它能在任何可用的地方并發調度Spark的處理任務。這樣,當使用HDFS作為Spark應用的輸入數據源時,YARN可以調度映射任務以充分保證數據本地化,以此在關鍵的初始處理階段最大程度地減小需要跨網傳輸的數據量。

      Spark python spark Python

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Kubernetes — 基于層級命名空間的多租戶隔離
      下一篇:安全滲透測試,漏洞掃描產品匯總大全(后續更新使用方法)
      相關文章
      亚洲一区免费在线观看| 亚洲网址在线观看| 亚洲人成电影网站色| 亚洲欧洲春色校园另类小说| 亚洲国语精品自产拍在线观看| 久久久久久a亚洲欧洲aⅴ| 亚洲色成人网站WWW永久| 久久精品国产亚洲Aⅴ香蕉| 国产成人综合亚洲| 99亚洲精品卡2卡三卡4卡2卡| 亚洲国产aⅴ成人精品无吗| 亚洲综合精品第一页| 亚洲综合色一区二区三区| 亚洲精品中文字幕无码A片老| 亚洲熟妇无码AV不卡在线播放 | 亚洲首页国产精品丝袜| 亚洲乱码在线视频| 91丁香亚洲综合社区| 亚洲日本成本人观看| 亚洲精品国产首次亮相| jizzjizz亚洲日本少妇| 亚洲国产日韩在线观频| 国产精品亚洲综合专区片高清久久久| 亚洲日本中文字幕一区二区三区| av在线亚洲欧洲日产一区二区| 狠狠亚洲狠狠欧洲2019| 亚洲不卡中文字幕无码| 亚洲黄色片免费看| 亚洲一区免费在线观看| 亚洲av日韩av永久无码电影| 亚洲精品久久久www| 亚洲人成中文字幕在线观看| 亚洲Av无码精品色午夜| 久久精品亚洲一区二区三区浴池 | 亚洲精品视频免费| 国产精品亚洲片在线观看不卡| 亚洲AV日韩精品久久久久| 91午夜精品亚洲一区二区三区| 33333在线亚洲| 最新亚洲人成网站在线观看 | 久久精品夜色噜噜亚洲A∨|