2021年數據Spark(二):四大特點

      網友投稿 938 2022-05-29

      目錄

      Spark 四大特點

      速度快

      易于使用

      通用性強

      運行方式

      Spark 四大特點

      Spark 使用Scala語言進行實現,它是一種面向對、函數式編程語言,能夠像操作本地集合一樣輕松的操作分布式數據集。Spark具有運行速度快、易用性好、通用性強和隨處運行等特點。

      速度快

      由于Apache Spark支持內存計算,并且通過DAG(有向無環圖)執行引擎支持無環數據流,所以官方宣稱其在內存中的運算速度要比Hadoop的MapReduce快100倍,在硬盤中要快10倍。

      Spark處理數據與MapReduce處理數據相比,有如下兩個不同點:

      其一、Spark處理數據時,可以將中間處理結果數據存儲到內存中;

      其二、Spark Job調度以DAG方式,并且每個任務Task執行以線程(Thread)方式,并不是像MapReduce以進程(Process)方式執行。

      2014 年的如此Benchmark測試中,Spark 秒殺Hadoop,在使用十分之一計算資源的情況下,相同數據的排序上,Spark 比Map Reduce快3倍!

      易于使用

      Spark 的版本已經更新到 Spark 2.4.5(截止日期2020.05.01),支持了包括 Java、Scala、Python 、R和SQL語言在內的多種語言。

      通用性強

      在 Spark 的基礎上,Spark 還提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在內的多個工具庫,我們可以在一個應用中無縫地使用這些工具庫。其中,Spark SQL 提供了結構化的數據處理方式,Spark Streaming 主要針對流式處理任務(也是本書的重點),MLlib提供了很多有用的機器學習算法庫,GraphX提供圖形和圖形并行化計算。

      運行方式

      Spark 支持多種運行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的獨立運行模式,同時也可以運行在云Kubernetes(Spark 2.3開始支持)上。

      對于數據源而言,Spark 支持從HDFS、HBase、Cassandra 及 Kafka 等多種途徑獲取數據。

      2021年大數據Spark(二):四大特點

      spark 大數據

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:腰肌勞損康復指南
      下一篇:Swoole入門介紹
      相關文章
      国产成人精品亚洲一区| 亚洲JIZZJIZZ妇女| 亚洲av成人片在线观看| 久久综合久久综合亚洲| 亚洲一级毛片视频| 亚洲国产精品无码久久久| 亚洲第一精品福利| 亚洲欧洲一区二区| 亚洲色欲色欲综合网站| 亚洲AV无码国产丝袜在线观看| 亚洲无码在线播放| 亚洲国产精品成人久久| 国产亚洲一区二区三区在线| 亚洲精品亚洲人成在线观看| 久久精品国产亚洲沈樵| 亚洲av无码一区二区三区网站| 久久青青成人亚洲精品| 亚洲伊人久久大香线蕉苏妲己| 久久亚洲AV无码精品色午夜| 亚洲高清在线mv| 亚洲春黄在线观看| 国产色在线|亚洲| 亚洲欧美日韩中文高清www777| 亚洲AV无码一区二区三区电影 | 亚洲国产精品自在在线观看 | 亚洲国产欧美国产综合一区 | 亚洲精品美女在线观看| 国产成人精品日本亚洲网址| 亚洲日韩精品国产一区二区三区| 亚洲aⅴ无码专区在线观看春色 | 亚洲伊人色一综合网| 国产精品高清视亚洲一区二区| 亚洲欧美成人一区二区三区| 亚洲国产成人AV网站| 国产黄色一级毛片亚洲黄片大全| 亚洲区小说区激情区图片区| 西西人体44rt高清亚洲 | 亚洲另类少妇17p| 亚洲色欲久久久综合网东京热| 亚洲色图在线观看| 精品久久亚洲中文无码|