大數據技術原理與應用之【Spark】習題
答:Spark具有如下4個主要特點:
①運行速度快;②容易使用;③通用性;④運行模式多樣。
答:
(1)Hadoop存在以下缺點:
①表達能力有限;②磁盤IO開銷大;③延遲高
(2)Spark主要有如下優點:
①Spark的計算模式也屬于MapReduce,但不局限于Map和Reduce操作,還提供了多種數據集操作類型,編程模型比MapReduce更靈活;
②Spark提供了內存計算,中間結果直接存放內存中,帶來更高的迭代運算效率;
③Spark基于DAG的任務調度執行機制,要優于MapReduce的迭代執行機制。
答:
①復雜的批量數據處理:時間跨度通常在數十分鐘到數小時之間;
②基于歷史數據的交互式查詢:時間跨度通常在數十秒到數分鐘之間;
③基于實時數據流的數據處理:時間跨度通常在數百毫秒到數秒之間。
答:Spark的設計遵循“一個軟件棧滿足不同應用場景”的理念,逐漸形成一套完整生態系統,既能夠提供內存計算框架,也可以支持SQL即席查詢、實時流式計算、機器學習和圖計算等。Spark可以部署在資源管理器YARN之上,提供一站式的大數據解決方案。因此,Spark所提供的生態系統同時支持批處理、交互式查詢和流數據處理。
答:
(1)實現一鍵式安裝和配置、線程級別的任務監控和告警;
(2)降低硬件集群、軟件維護、任務監控和應用開發的難度;
(3)便于做成統一的硬件、計算平臺資源池。
答:Spark可以運行與YARN之上,與Hadoop進行統一部署,即“Spark on YARN”,其架構如圖所示,資源管理和調度用YARN,分布式存儲則用HDFS。
答:
① RDD:是彈性分布式數據集(Resilient Distributed Dataset)的英文縮寫,是分布式內存的一個抽象概念,提供了一種高度受限的共享內存模型。
② DAG:是Directed Acyclic Graph(有向無環圖)的英文縮寫,反映RDD之間的依賴關系。
③ 階段:是作業的基本調度單位,一個作業會分為多組任務,每組任務被稱為“階段”,或者也被稱為“任務集”。
④ 分區:一個RDD就是一個分布式對象集合,本質上是一個只讀的分區記錄集合,每個RDD可以分成多個分區,每個分區就是一個數據集片段。
⑤窄依賴:父RDD的一個分區只被一個子RDD的一個分區所使用就是窄依賴。
⑥ 寬依賴:父RDD的一個分區被一個子RDD的多個分區所使用就是寬依賴。
答:
行動(Action):在數據集上進行運算,返回計算值。
轉換(Transformation):基于現有的數據集創建一個新的數據集。
spark 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。