Spark shuffle介紹:概述

      網友投稿 871 2022-05-28

      在基于mapreduce思想的計算模型里,Shuffle是map和reduce的紐帶。計算框架對大數據分而治之,對處理數據進行分塊并行處理,當需要對分塊數據做聚合處理時,多個分塊的數據在map階段轉為k-v結構,然后按key分區,在reduce階段對各自分區的數據進行計算歸并。map和reduce中間對數據做分區并規整的過程,就是shuffle的過程。

      在spark中,對shuffle也從RDD的角度進行了定義。spark core的作業就是rdd的一系列轉換,從aRDD轉為bRDD,RDD之間有寬依賴和窄依賴,對于存在寬依賴的2個RDD之間,就會存在shuffle。

      窄依賴:父RDD的每個分區數據都只被RDD的一個分區使用

      寬依賴:父RDD的每個分區數據都被子RDD的多個分區使用

      在hadoop、spark這類批處理的計算框架中,考慮到容錯,shuffle過程的數據都是序列化到了磁盤。map做shuffle write,reduce做shuffle read。這個過程涉及了CPU對數據序列化及各種內存拷貝、內存對數據做分區排序、磁盤對shuffle數據存儲讀取、以及網絡遠程fetch,是計算過程中的資源消耗大戶,也是最大的瓶頸。

      下面以wordcount為例子,概要描述下作業shuffle過程,目標為統計輸入文件里每個單詞的數量。

      比如有2個文本文件,文件1內容為: abc def 文件2內容為:abc ghi。

      Spark shuffle介紹:概述

      期望結果為:abc 2;def 1;ghi 1(abc有2個,def有1個,ghi有1個)

      整個數據流如下:

      1、作業運行時首先啟2個task,分別讀取文件1和文件2,每個task將自己讀到文件內容split為單詞

      2、每個task將讀到的單詞,轉為key-value結構,即word-數量的結構

      3、每個task將key-value數據按key做分區,假設目標分區為3個,3個單詞abc、def、ghi分別分到3個分區,并各自shuffle write為對應的文件

      4、啟動3個reduce任務,每個reduce任務讀取對應分區的數據

      5、每個reduce任務對相同的單詞合并,數量合計

      6、每個reduce任務的結果合并到driver輸出結果

      為了并行處理數據,需要啟動多個task進行文件的讀取和split。但count是對全部的單詞做count,每個task里只包含了某1個文件的單詞,這種就需要shuffle,把相同的單詞先分到同一個分區里,再分別對每個分區做count,即可得到最終結果。這個簡單的例子幫到你理解為什么需要shuffle了么。

      spark

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:服務器常用的Linux命令(二)
      下一篇:基因數據分析軟件遷移-pyclone
      相關文章
      亚洲熟妇av一区二区三区| 亚洲成人福利网站| 亚洲欧洲尹人香蕉综合| 亚洲成a人片在线观看无码专区| 亚洲国产小视频精品久久久三级| 亚洲av永久无码一区二区三区| 亚洲a级在线观看| 亚洲国产精品综合一区在线| 激情内射亚洲一区二区三区| 亚洲日本一区二区| 亚洲天堂一区二区| 1区1区3区4区产品亚洲| 久久久无码精品亚洲日韩京东传媒 | 色婷五月综激情亚洲综合| 亚洲精品视频在线观看视频| 在线电影你懂的亚洲| 亚洲综合激情视频| 亚洲同性男gay网站在线观看| 亚洲国产精品午夜电影| 亚洲一区中文字幕| 香蕉大伊亚洲人在线观看| 亚洲一本到无码av中文字幕 | 亚洲三级在线观看| 亚洲色无码国产精品网站可下载 | 国产亚洲精品a在线观看app | 亚洲av日韩av不卡在线观看| 久久久久亚洲精品无码系列| 亚洲va在线va天堂va888www| 久久精品九九亚洲精品| 亚洲a∨无码男人的天堂| 亚洲精品乱码久久久久久V| 看亚洲a级一级毛片| 亚洲M码 欧洲S码SSS222| 久久久久亚洲av毛片大| 久久久久久久综合日本亚洲| 亚洲综合精品香蕉久久网97| 亚洲另类春色校园小说| 亚洲欧洲无码一区二区三区| 亚洲M码 欧洲S码SSS222| 国产成人亚洲综合色影视| 久久久久久亚洲精品成人|