Spark 概述

網友投稿 810 2025-04-02

Spark 是什么？

● 官方文檔解釋：Apache Spark? is a fast and general engine for large-scale data processing.

通俗的理解：Spark是基于內存計算的大數據并行計算框架。Spark基于內存計算，提高了在大數據環境下數據處理的實時性，同時保證了高容錯性和高可伸縮性，允許用戶將Spark 部署在大量廉價硬件之上，形成集群。

● 擴展了MapReduce計算模型；相比與MapReduce編程模型，Spark提供了更加靈活的DAG（Directed Acyclic Graph）編程模型，不僅包含傳統的map、reduce接口，還增加了filter、flatMap、union等操作接口，使得編寫Spark程序更加靈活方便。

● 高效支持多種計算模式；Spark 不僅可以做離線運算，還可以做流式運算以及迭代式運算。

Spark 組成---大一統軟件棧

Spark Core

● Spark Core 實現了Spark 的基本功能，包含任務調度、內存管理、錯誤恢復、與存儲系統交互等模塊。

● RDD（resilient distributed dataset，彈性分布式數據集）的API 定義。RDD是一個抽象的數據集，提供對數據并行和容錯的處理。初次使用RDD時，其接口有點類似Scala的Array，提供map，filter，reduce等操作。但是，不支持隨機訪問。剛開始不太習慣，但是逐漸熟悉函數編程和RDD 的原理后，發現隨機訪問數據的場景并不常見。

Spark SQL

● Spark SQL 是Spark 用來操作結構化數據的程序包。

Spark 概述

● Spark SQL 直接兼容Hive SQL。

● 多數據源（Hive表、Parquet、JSON等）；Spark SQL 可以操作Hive表，可以讀取Parquet文件(列式存儲結構)，可以讀取JSON文件，還可以處理hdfs上面的文件。

● SQL與RDD編程結合使用。

● 從Shark演變到Spark SQL。

Spark Streaming

● Spark 提供的對實時數據進行流式計算的組件。

● 微批處理(Storm、Flink)—從批處理到流處理

Spark MLlib

● Spark 提供的包含常見機器學習（ML）功能的庫。

● 分類、回歸、聚類、協同過濾等

● 模型評估、數據導入等額外的支持功能

● Mahout(Runs on distributed Spark, H2O, and Flink)

GraphX

● GraphX是Spark 提供的圖計算和圖挖掘的庫。

● 與Spark Streaming 和Spark SQL 類似，GraphX 也擴展了Spark 的RDD API，能用來創建一個頂點和邊都包含任意屬性的有向圖

● GraphX還支持針對圖的各種計算和常見的圖算法。

Spark與Hadoop的關系

Spark與Hadoop的關系---青于于藍

Spark與Hadoop的關系---相輔相成

Spark的競爭對手---Flink

● Flink是先有流處理后有批處理

● Pipeline vs Stage

● http://note.youdao.com/share/?id=f3b0a1832e4ee43e3e3635913d5e00e1&type=note

Spark的競爭對手---Storm/JStorm

● Storm僅限于流計算(topology)

● JStorm參照Flink改進了Storm

Spark的競爭對手---Hadoop3.x

http://news.cnw.com.cn/news-international/htm2016/20160603_327510.shtml

spark Hadoop 大數據

標簽：Spark 概述

Shell 流程控制

810 2025-04-02

Spark為什么快，Spark SQL 一定比 Hive 快嗎">Spark為什么快，Spark SQL 一定比 Hive 快嗎

810 2025-04-02

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

810 2025-04-02

<fieldset id="as0og"></fieldset>

<fieldset id="as0og"></fieldset>

Spark 概述

Shell 流程控制

Spark為什么快，Spark SQL 一定比 Hive 快嗎">Spark為什么快，Spark SQL 一定比 Hive 快嗎

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接