大數據技術原理與應用之【Spark】習題

網友投稿 776 2025-04-04

答：Spark具有如下4個主要特點：

①運行速度快；②容易使用；③通用性；④運行模式多樣。

答：

(1)Hadoop存在以下缺點：

①表達能力有限；②磁盤IO開銷大；③延遲高

(2)Spark主要有如下優點：

①Spark的計算模式也屬于MapReduce，但不局限于Map和Reduce操作，還提供了多種數據集操作類型，編程模型比MapReduce更靈活；

②Spark提供了內存計算，中間結果直接存放內存中，帶來更高的迭代運算效率；

③Spark基于DAG的任務調度執行機制，要優于MapReduce的迭代執行機制。

答：

①復雜的批量數據處理：時間跨度通常在數十分鐘到數小時之間；

②基于歷史數據的交互式查詢：時間跨度通常在數十秒到數分鐘之間；

③基于實時數據流的數據處理：時間跨度通常在數百毫秒到數秒之間。

答：Spark的設計遵循“一個軟件棧滿足不同應用場景”的理念，逐漸形成一套完整生態系統，既能夠提供內存計算框架，也可以支持SQL即席查詢、實時流式計算、機器學習和圖計算等。Spark可以部署在資源管理器YARN之上，提供一站式的大數據解決方案。因此，Spark所提供的生態系統同時支持批處理、交互式查詢和流數據處理。

答:

大數據技術原理與應用之【Spark】習題

（1）實現一鍵式安裝和配置、線程級別的任務監控和告警；

（2）降低硬件集群、軟件維護、任務監控和應用開發的難度；

（3）便于做成統一的硬件、計算平臺資源池。

答：Spark可以運行與YARN之上，與Hadoop進行統一部署，即“Spark on YARN”，其架構如圖所示，資源管理和調度用YARN，分布式存儲則用HDFS。

答：

① RDD：是彈性分布式數據集（Resilient Distributed Dataset）的英文縮寫，是分布式內存的一個抽象概念，提供了一種高度受限的共享內存模型。

② DAG：是Directed Acyclic Graph（有向無環圖）的英文縮寫，反映RDD之間的依賴關系。

③ 階段：是作業的基本調度單位，一個作業會分為多組任務，每組任務被稱為“階段”，或者也被稱為“任務集”。

④ 分區：一個RDD就是一個分布式對象集合，本質上是一個只讀的分區記錄集合，每個RDD可以分成多個分區，每個分區就是一個數據集片段。

⑤窄依賴：父RDD的一個分區只被一個子RDD的一個分區所使用就是窄依賴。

⑥ 寬依賴：父RDD的一個分區被一個子RDD的多個分區所使用就是寬依賴。

答：

行動（Action）：在數據集上進行運算，返回計算值。

轉換（Transformation）：基于現有的數據集創建一個新的數據集。

spark 大數據

標簽：大數據技術原理應用

Office 2013插件擴展平臺Agaves搶先看（真相帝養成系統txt）">真相帝:Office 2013插件擴展平臺Agaves搶先看（真相帝養成系統txt）

776 2025-04-04

發布H5輕應用">發布H5輕應用

776 2025-04-04

切換到下一張幻燈片">為什么視頻設置了換片時間在它播放完后還是不會自動切換到下一張幻燈片

776 2025-04-04

<cite id="o2w2k"></cite>

大數據技術原理與應用之【Spark】習題

Office 2013插件擴展平臺Agaves搶先看（真相帝養成系統txt）">真相帝:Office 2013插件擴展平臺Agaves搶先看（真相帝養成系統txt）

發布H5輕應用">發布H5輕應用

切換到下一張幻燈片">為什么視頻設置了換片時間在它播放完后還是不會自動切換到下一張幻燈片

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接