<ul id="8wcwo"></ul>

2021年大數據 Spark（二）：四大特點

網友投稿 938 2022-05-29

Spark 四大特點

速度快

易于使用

通用性強

運行方式

Spark 四大特點

Spark 使用Scala語言進行實現，它是一種面向對、函數式編程語言，能夠像操作本地集合一樣輕松的操作分布式數據集。Spark具有運行速度快、易用性好、通用性強和隨處運行等特點。

速度快

由于Apache Spark支持內存計算，并且通過DAG（有向無環圖）執行引擎支持無環數據流，所以官方宣稱其在內存中的運算速度要比Hadoop的MapReduce快100倍，在硬盤中要快10倍。

Spark處理數據與MapReduce處理數據相比，有如下兩個不同點：

其一、Spark處理數據時，可以將中間處理結果數據存儲到內存中；

其二、Spark Job調度以DAG方式，并且每個任務Task執行以線程（Thread）方式，并不是像MapReduce以進程（Process）方式執行。

2014 年的如此Benchmark測試中，Spark 秒殺Hadoop，在使用十分之一計算資源的情況下，相同數據的排序上，Spark 比Map Reduce快3倍！

易于使用

Spark 的版本已經更新到 Spark 2.4.5（截止日期2020.05.01），支持了包括 Java、Scala、Python 、R和SQL語言在內的多種語言。

通用性強

在 Spark 的基礎上，Spark 還提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在內的多個工具庫，我們可以在一個應用中無縫地使用這些工具庫。其中，Spark SQL 提供了結構化的數據處理方式，Spark Streaming 主要針對流式處理任務（也是本書的重點），MLlib提供了很多有用的機器學習算法庫，GraphX提供圖形和圖形并行化計算。

運行方式

Spark 支持多種運行方式，包括在 Hadoop 和 Mesos 上，也支持 Standalone的獨立運行模式，同時也可以運行在云Kubernetes（Spark 2.3開始支持）上。

對于數據源而言，Spark 支持從HDFS、HBase、Cassandra 及 Kafka 等多種途徑獲取數據。

2021年大數據Spark（二）：四大特點

spark 大數據

標簽：2021年數據 Spark

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

938 2022-05-29

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

938 2022-05-29

SUBSTITUTE

938 2022-05-29

2021年大數據 Spark（二）：四大特點

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

SUBSTITUTE

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接