MapReduce學習(5)
Reduce階段詳解
前面提到的MOF文件是經過排序處理的。當Reduce Task接收的數據量不大時,則直接存放在內存緩沖區中,隨著緩沖區文件的增多,MR后臺線程將它們合并成一個更大的有序文件,這個動作是Reduce階段的Merge操作,過程中會產生許多中間文件,最后一次合并的結果直接輸出到用戶自定義的reduce函數。當數據很少時,不需要溢寫到磁盤,直接在緩存中歸并,然后輸出給Reduce。通常在Map Task任務完成MOF輸出進度到3%時啟動Reduce,從各個Map Task獲取MOF文件。前面提到Reduce Task個數由客戶端決定,Reduce Task個數決定MOF文件分區數。因此Map Task輸出的MOF文件都能找到相對應的Reduce Task來處理。具體流程如下圖:
MapReduce
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。