CAS
689
2025-04-03
Shuffle指的是Map階段和Reduce階段之間傳遞中間數據的過程,包括Reduce Task從各個Map Task獲取MOF文件的過程,以及對MOF的排序與合并處理。
在Map任務全部結束之前進行歸并,歸并得到一個大的文件,放在本地磁盤。文件歸并時,如果溢寫文件數量大于預定值(默認是3)則可以再次啟動Combiner,少于3不需要。JobTracker會一直監測Map任務的執行,并通知Reduce任務來領取數據。Reduce任務通過RPC向JobTracker詢問Map任務是否已經完成,若完成,則領取數據。Reduce領取數據先放入緩存,來自不同Map機器,先歸并,再合并,寫入磁盤。多個溢寫文件歸并成一個或多個大文件,文件中的鍵值對是排序的。
MapReduce
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。