MapReduce 快速 入門 系列(5) | MapReduce任務流程和shuffle機制的簡單解析

網友投稿 937 2022-05-28

Hello，大家好，在本系列的第一篇博文中，博主已經為大家介紹了MapReduce的相關概念。其中談到了MapReduce主要由Map和Reduce兩個過程組成!事實上,為了讓Reduce可以并行處理Map的結果,需要對Map的輸出進行一定的分區(Partition),排序(Sort),合并(Combine),分組(Group)等操作,得到形式的中間結果,再交給對應的Reduce 進行處理,這個過程也就是小菌需要為大家介紹的,叫做Shuffle(混洗)。

1. Shuffle機制

2. Shuffle階段的四個操作

3. MapReduce工作流程

3.1 MapReduce的整個任務執行過程

3.2 MapReduce工作流程圖(全)

3.3 注意

1. Shuffle機制

MapReduce快速入門系列(5) | MapReduce任務流程和shuffle機制的簡單解析

Shuffle機制如下：

是不是發現可能看不懂！沒關系下面開始細化詳解一下。

2. Shuffle階段的四個操作

下圖為Shuffle階段的四個操作的具體功能演示：

如果對上圖的一臉懵逼，不要慌！下面即為詳細解答：

第5步：對輸出的key，value對進行分區。相同key的數據發送到同一個reduce里面去，相同key合并，value形成一個集合

第6步：對不同分區的數據按照相同的key進行排序

第7步：對分組后的數據進行規約(combine操作)，降低數據的網絡拷貝（可選步驟）

第8步：對排序后的額數據進行分組，分組的過程中，將相同key的value放到一個集合當中

3. MapReduce工作流程

3.1 MapReduce的整個任務執行過程

由于空間有限,2,3步驟過程較為抽象,只做文字說明

具體每步的詳細流程如下:

第1步：InputFormat InputFormat 到hdfs上讀取數據將數據傳給Split 第2步：Split Split將數據進行邏輯切分，將數據傳給RR 第3步：RR(RecordReader) RR:將傳入的數據轉換成一行一行的數據，輸出行首字母偏移量和偏移量對應的數據將數據傳給MAP 第4步：MAP MAP:根據業務需求實現自定義代碼將數據傳給Shuffle的partition 第5步：partition partition:按照一定的分區規則，將key value的list進行分區。將數據傳給Shuffle的Sort 第6步：Sort Sort:對分區內的數據進行排序將數據傳給Shuffle的combiner 第7步：combiner combiner:對數據進行局部聚合。將數據傳給Shuffle的Group 第8步：Group Group:將相同key的key提取出來作為唯一的key, 將相同key對應的value獲取出來作為value的list 將數據傳給Reduce 第9步：Reduce Reduce：根據業務需求進行最終的合并匯總。將數據傳給outputFormat 第10步：outputFormat outputFormat:將數據寫入HDFS

3.2 MapReduce工作流程圖(全)

1. MapReduce詳細工作流程(一)

2. MapReduce詳細工作流程(二)

3. 詳細流程解析

上面的流程是整個MapReduce最全工作流程，但是

Shuffle過程

只是從第7步開始到第16步結束，具體Shuffle過程詳解，如下：

① MapTask收集我們的map()方法輸出的kv對，放到內存緩沖區中

② 從內存緩沖區不斷溢出本地磁盤文件，可能會溢出多個文件

③ 多個溢出文件會被合并成大的溢出文件

④ 在溢出過程及合并的過程中，都要調用Partitioner進行分區和針對key進行排序

⑤ ReduceTask根據自己的分區號，去各個MapTask機器上取相應的結果分區數據

⑥ ReduceTask會取到同一個分區的來自不同MapTask的結果文件，ReduceTask會將這些文件再進行合并（歸并排序）

⑦ 合并成大文件后，Shuffle的過程也就結束了，后面進入ReduceTask的邏輯運算過程（從文件中取出一個一個的鍵值對Group，調用用戶自定義的reduce()方法）

3.3 注意

Shuffle中的緩沖區大小會影響到MapReduce程序的執行效率，原則上說，緩沖區越大，磁盤io的次數越少，執行速度就越快。

緩沖區的大小可以通過參數調整，參數：io.sort.mb默認100M

本次關于MapReduce任務流程和shuffle機制的簡單解析就到這里了,關于流程中shuffle階段的Partition分區算法以及split的邏輯切分規律,博主會在后續的博客中為大家解答,感興趣的小伙伴們記得關注博主呀！

MapReduce

標簽：MapReduce 快速入門系列

elasticsearch入門 系列">elasticsearch入門 系列

937 2022-05-28

快速跳到我想要的那一頁（怎么快速到下一頁）">怎么快速跳到我想要的那一頁（怎么快速到下一頁）

937 2022-05-28

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

937 2022-05-28

MapReduce 快速 入門 系列(5) | MapReduce任務流程和shuffle機制的簡單解析

elasticsearch入門 系列">elasticsearch入門 系列

快速跳到我想要的那一頁（怎么快速到下一頁）">怎么快速跳到我想要的那一頁（怎么快速到下一頁）

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

MapReduce快速入門系列(5) | MapReduce任務流程和shuffle機制的簡單解析

elasticsearch入門系列">elasticsearch入門系列

快速跳到我想要的那一頁（怎么快速到下一頁）">怎么快速跳到我想要的那一頁（怎么快速到下一頁）

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

MapReduce 快速入門系列(5) | MapReduce任務流程和shuffle機制的簡單解析

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工