RDD有哪些特點
RDD有哪些特點
顧名思義,從字面理解RDD就是 Resillient Distributed Dataset,即彈性分布式數據集。
它是Spark提供的核心抽象。
RDD在抽象上來講是一種抽象的分布式的數據集。它是被分區的,每個分區分布在集群中的不同的節點上。從而可以讓數據進行并行的計算
rdd 分布式彈性數據集,簡單的理解成一種數據結構,是 spark 框架上的通用貨幣。所有算子都是基于 rdd 來執行的,不同的場景會有不同的 rdd 實現類,但是都可以進行互相轉換。rdd 執行過程中會形成 dag 圖,然后形成 lineage 保證容錯性等。從物理的角度來看 rdd 存儲的是 block 和 node 之間的映射。
RDD 在邏輯上是一個 hdfs 文件,在抽象上是一種元素集合,包含了數據。它是被分區的,分為多個分區,每個分區分布在集群中的不同結點上,從而讓 RDD 中的數據可以被并行操作(分布式數據集)
比如有個 RDD 有 90W 數據,3 個 partition,則每個分區上有 30W 數據。RDD 通常通過 Hadoop 上的文件,即 HDFS 或者 HIVE 表來創建,還可以通過應用程序中的集合來創建;RDD 最重要的特性就是容錯性,可以自動從節點失敗中恢復過來。即如果某個結點上的 RDD partition 因為節點故障,導致數據丟失,那么 RDD 可以通過自己的數據來源重新計算該 partition。這一切對使用者都是透明的。
RDD 是 spark 提供的核心抽象,全稱為彈性分布式數據集。
它主要特點就是彈性和容錯性。
彈性:RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤
容錯性:RDD可以自動從節點失敗中恢復過來。即如果某個節點上的RDD partition,因為節點故障,導致數據丟了,那么RDD會自動通過自己的數據來源重新計算該partition。
Hadoop spark
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。