spark 解決了 hadoop 的哪些問題(spark VS MR)?
Spark 解決了 Hadoop 的哪些問題(Spark VS MR)?

MR:抽象層次低,需要使用手工代碼來完成程序編寫,使用上難以上手;
Spark:Spark 采用 RDD 計算模型,簡單容易上手。
MR:只提供 map 和 reduce 兩個操作,表達能力欠缺;
Spark:Spark 采用更加豐富的算子模型,包括 map、flatmap、groupbykey、reducebykey 等;
MR:一個 job 只能包含 map 和 reduce 兩個階段,復雜的任務需要包含很多個 job,這些 job 之間的管理以來需要開發(fā)者自己進行管理;
Spark:Spark 中一個 job 可以包含多個轉(zhuǎn)換操作,在調(diào)度時可以生成多個 stage,而且如果多個 map 操作的分區(qū)不變,是可以放在同一個 task 里面去執(zhí)行;
MR:中間結(jié)果存放在 hdfs 中;
Spark:Spark 的中間結(jié)果一般存在內(nèi)存中,只有當內(nèi)存不夠了,才會存入本地磁盤,而不是 hdfs;
MR:只有等到所有的 map task 執(zhí)行完畢后才能執(zhí)行 reduce task;
Spark:Spark 中分區(qū)相同的轉(zhuǎn)換構(gòu)成流水線在一個 task 中執(zhí)行,分區(qū)不同的需要進行 shuffle 操作,被劃分成不同的 stage 需要等待前面的 stage 執(zhí)行完才能執(zhí)行。
MR:只適合 batch 批處理,時延高,對于交互式處理和實時處理支持不夠;
Spark:Spark streaming 可以將流拆成時間間隔的 batch 進行處理,實時計算。
spark
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。