<fieldset id="m8ome"></fieldset>

RDD有哪些 特點

網友投稿 2064 2025-04-01

RDD有哪些特點

顧名思義，從字面理解RDD就是 Resillient Distributed Dataset，即彈性分布式數據集。

它是Spark提供的核心抽象。

RDD在抽象上來講是一種抽象的分布式的數據集。它是被分區的，每個分區分布在集群中的不同的節點上。從而可以讓數據進行并行的計算

rdd 分布式彈性數據集，簡單的理解成一種數據結構，是 spark 框架上的通用貨幣。所有算子都是基于 rdd 來執行的，不同的場景會有不同的 rdd 實現類，但是都可以進行互相轉換。rdd 執行過程中會形成 dag 圖，然后形成 lineage 保證容錯性等。從物理的角度來看 rdd 存儲的是 block 和 node 之間的映射。

RDD 在邏輯上是一個 hdfs 文件，在抽象上是一種元素集合，包含了數據。它是被分區的，分為多個分區，每個分區分布在集群中的不同結點上，從而讓 RDD 中的數據可以被并行操作（分布式數據集）

比如有個 RDD 有 90W 數據，3 個 partition，則每個分區上有 30W 數據。RDD 通常通過 Hadoop 上的文件，即 HDFS 或者 HIVE 表來創建，還可以通過應用程序中的集合來創建；RDD 最重要的特性就是容錯性，可以自動從節點失敗中恢復過來。即如果某個結點上的 RDD partition 因為節點故障，導致數據丟失，那么 RDD 可以通過自己的數據來源重新計算該 partition。這一切對使用者都是透明的。

RDD 是 spark 提供的核心抽象，全稱為彈性分布式數據集。

RDD有哪些特點

它主要特點就是彈性和容錯性。

彈性：RDD的數據默認情況下存放在內存中的，但是在內存資源不足時，Spark會自動將RDD數據寫入磁盤

容錯性：RDD可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition，因為節點故障，導致數據丟了，那么RDD會自動通過自己的數據來源重新計算該partition。

Hadoop spark

標簽：哪些特點

功能不能用是怎么回事。（為什么有些功能用不了）">剛下，有的功能不能用是怎么回事。（為什么有些功能用不了）

2064 2025-04-01

哪些 大膽又新奇的網絡結構？">CNN 有哪些 大膽又新奇的網絡結構？

2064 2025-04-01

功能有哪些呢？">oa管理系統功能有哪些呢？

2064 2025-04-01

<ul id="o0uy2"></ul>

RDD有哪些 特點

功能不能用是怎么回事。（為什么有些功能用不了）">剛下，有的功能不能用是怎么回事。（為什么有些功能用不了）

哪些 大膽又新奇的網絡結構？">CNN 有哪些 大膽又新奇的網絡結構？

功能有哪些呢？">oa管理系統功能有哪些呢？

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接