Spark為什么快，Spark SQL 一定比 Hive 快嗎

網友投稿 1241 2025-04-05

Spark SQL 比 Hadoop Hive 快，是有一定條件的，而且不是 Spark SQL 的引擎比 Hive 的引擎快，相反，Hive 的 HQL 引擎還比 Spark SQL 的引擎更快。其實，關鍵還是在于 Spark 本身快。

消除了冗余的 HDFS 讀寫: Hadoop 每次 shuffle 操作后，必須寫到磁盤，而 Spark 在 shuffle 后不一定落盤，可以 persist 到內存中，以便迭代時使用。如果操作復雜，很多的 shufle 操作，那么 Hadoop 的讀寫 IO 時間會大大增加，也是 Hive 更慢的主要原因了。

消除了冗余的 MapReduce 階段: Hadoop 的 shuffle 操作一定連著完整的 MapReduce 操作，冗余繁瑣。而 Spark 基于 RDD 提供了豐富的算子操作，且 reduce 操作產生 shuffle 數據，可以緩存在內存中。

JVM 的優化: Hadoop 每次 MapReduce 操作，啟動一個 Task 便會啟動一次 JVM，基于進程的操作。而 Spark 每次 MapReduce 操作是基于線程的，只在啟動 Executor 是啟動一次 JVM，內存的 Task 操作是在線程復用的。每次啟動 JVM 的時間可能就需要幾秒甚至十幾秒，那么當 Task 多了，這個時間 Hadoop 不知道比 Spark 慢了多少。

Hive spark SQL

標簽：Spark Spark SQL

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

1241 2025-04-05

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

1241 2025-04-05

解決了 hadoop 的哪些問題(spark VS MR)">spark 解決了 hadoop 的哪些問題(spark VS MR)

1241 2025-04-05

Spark為什么快，Spark SQL 一定比 Hive 快嗎

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

解決了 hadoop 的哪些問題(spark VS MR)">spark 解決了 hadoop 的哪些問題(spark VS MR)

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

Spark為什么快，Spark SQL 一定比 Hive 快嗎

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

SparkAPI Java版】JavaPairRDD——cartesian（三）">【SparkAPI Java版】JavaPairRDD——cartesian（三）

解決了 hadoop 的哪些問題(spark VS MR)">spark 解決了 hadoop 的哪些問題(spark VS MR)

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工