亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析
938
2022-05-29
目錄
Spark 四大特點
速度快
易于使用
通用性強
運行方式
Spark 四大特點
Spark 使用Scala語言進行實現,它是一種面向對、函數式編程語言,能夠像操作本地集合一樣輕松的操作分布式數據集。Spark具有運行速度快、易用性好、通用性強和隨處運行等特點。
速度快
由于Apache Spark支持內存計算,并且通過DAG(有向無環圖)執行引擎支持無環數據流,所以官方宣稱其在內存中的運算速度要比Hadoop的MapReduce快100倍,在硬盤中要快10倍。
Spark處理數據與MapReduce處理數據相比,有如下兩個不同點:
其一、Spark處理數據時,可以將中間處理結果數據存儲到內存中;
其二、Spark Job調度以DAG方式,并且每個任務Task執行以線程(Thread)方式,并不是像MapReduce以進程(Process)方式執行。
2014 年的如此Benchmark測試中,Spark 秒殺Hadoop,在使用十分之一計算資源的情況下,相同數據的排序上,Spark 比Map Reduce快3倍!
易于使用
Spark 的版本已經更新到 Spark 2.4.5(截止日期2020.05.01),支持了包括 Java、Scala、Python 、R和SQL語言在內的多種語言。
通用性強
在 Spark 的基礎上,Spark 還提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在內的多個工具庫,我們可以在一個應用中無縫地使用這些工具庫。其中,Spark SQL 提供了結構化的數據處理方式,Spark Streaming 主要針對流式處理任務(也是本書的重點),MLlib提供了很多有用的機器學習算法庫,GraphX提供圖形和圖形并行化計算。
運行方式
Spark 支持多種運行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的獨立運行模式,同時也可以運行在云Kubernetes(Spark 2.3開始支持)上。
對于數據源而言,Spark 支持從HDFS、HBase、Cassandra 及 Kafka 等多種途徑獲取數據。
spark 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。