Spark 基礎 學習 筆記16：創建RDD

網友投稿 852 2022-05-29

文章目錄

零、本講學習目標

一、RDD為何物

（一）RDD概念

（二）RDD示例

（三）RDD主要特征

二、做好準備工作

（一）準備文件

1、準備本地系統文件

2、準備HDFS系統文件

（二）啟動Spark Shell

1、啟動HDFS服務

2、啟動Spark服務

3、啟動Spark Shell

三、創建RDD

（一）從對象集合創建RDD

1、利用`parallelize()`方法創建RDD

2、利用`makeRDD()`方法創建RDD

3、簡單說明

（二）從外部存儲創建RDD

1、讀取本地系統文件

2、讀取HDFS系統文件

零、本講學習目標

了解RDD的概念

掌握RDD的創建方式

一、RDD為何物

（一）RDD概念

Spark提供了一種對數據的核心抽象，稱為彈性分布式數據集（Resilient Distributed Dataset，RDD）。這個數據集的全部或部分可以緩存在內存中，并且可以在多次計算時重用。RDD其實就是一個分布在多個節點上的數據集合。

RDD的彈性主要是指當內存不夠時，數據可以持久化到磁盤，并且RDD具有高效的容錯能力。

分布式數據集是指一個數據集存儲在不同的節點上，每個節點存儲數據集的一部分。

（二）RDD示例

將數據集（hello,world,scala,spark,love,spark, happy）存儲在三個節點上，節點一存儲（hello,world），節點二存儲（scala,spark,love），節點三存儲（spark,happy），這樣對三個節點的數據可以并行計算，并且三個節點的數據共同組成了一個RDD。

分布式數據集類似于HDFS中的文件分塊，不同的塊存儲在不同的節點上；而并行計算類似于使用MapReduce讀取HDFS中的數據并進行Map和Reduce操作。Spark則包含這兩種功能，并且計算更加靈活。

在編程時，可以把RDD看作是一個數據操作的基本單位，而不必關心數據的分布式特性，Spark會自動將RDD的數據分發到集群的各個節點。Spark中對數據的操作主要是對RDD的操作（創建、轉化、求值）。

（三）RDD主要特征

RDD是不可變的，但可以將RDD轉換成新的RDD進行操作。

RDD是可分區的。RDD由很多分區組成，每個分區對應一個Task任務來執行。

對RDD進行操作，相當于對RDD的每個分區進行操作。

RDD擁有一系列對分區進行計算的函數，稱為算子。

RDD之間存在依賴關系，可以實現管道化，避免了中間數據的存儲。

二、做好準備工作

（一）準備文件

1、準備本地系統文件

在/home目錄里創建test.txt

2、準備HDFS系統文件

將test.txt上傳到HDFS系統的/park目錄里

（二）啟動Spark Shell

參看《 Spark基礎學習筆記05：搭建Spark Standalone模式的集群》

1、啟動HDFS服務

執行命令：start-dfs.sh

2、啟動Spark服務

進入Spark的sbin目錄執行命令：./start-all.sh

3、啟動Spark Shell

參看《sc.textFile()默認讀取本地系統文件還是HDFS系統文件？》

如果以 spark-shell --master spark://master:7077方式啟動spark-shell，只能讀取HDFS系統上的文件，不能讀取本地系統文件，而以spark-shell --master=local[*]方式啟動spark-shell，既可以讀取本地系統文件，加不加file://都可以，還可以訪問HDFS系統上的文件，但是必須加上hdfs://master:9000。

執行命令：spark-shell --master=local[*]

查看Spark Shell的WebUI界面

三、創建RDD

RDD中的數據來源可以是程序中的對象集合，也可以是外部存儲系統中的數據集，例如共享文件系統、HDFS、HBase或任何提供HadoopInputFormat的數據源。

（一）從對象集合創建RDD

Spark可以通過parallelize()或makeRDD()方法將一個對象集合轉化為RDD。

1、利用parallelize()方法創建RDD

執行命令：val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8))

2、利用makeRDD()方法創建RDD

執行命令：val rdd = sc.makeRDD(List(1, 2, 3, 4, 5, 6, 7, 8)) 與 rdd.collect()

3、簡單說明

從上述兩個命令執行的返回信息可以看出，上述創建的RDD中存儲的是Int類型的數據。實際上，RDD也是一個集合，與常用的List集合不同的是，RDD集合的數據分布于多臺機器上。

（二）從外部存儲創建RDD

Spark的textFile()方法可以讀取本地文件系統或外部其他系統中的數據，并創建RDD。不同的是，數據的來源路徑不同。

1、讀取本地系統文件

執行命令：val rdd = sc.textFile("/home/test.txt")

執行命令：val lines = rdd.collect()，查看RDD中的內容，保存到常量lines（collect()方法是RDD的一個行動算子）

執行命令：for (line <- lines) println(line)，遍歷lines

2、讀取HDFS系統文件

Spark基礎學習筆記16：創建RDD

執行命令：val rdd = sc.textFile("hdfs://master:9000/park/test.txt")

執行命令：val lines = rdd.collect()，查看RDD中的內容

執行命令：val sparkLines = rdd.filter((line) => line.contains("spark"))，獲取包含spark的行

執行for (line <- sparkLines) println(line)，遍歷sparkLines

Hadoop spark

標簽：Spark 基礎學習筆記

學習 筆記20170601">【PMP】學習 筆記20170601

852 2022-05-29

基礎 起步四-循環結構">java基礎 起步四-循環結構

852 2022-05-29

Python 基礎一">Python 基礎一

852 2022-05-29

Spark 基礎 學習 筆記16：創建RDD

學習 筆記20170601">【PMP】學習 筆記20170601

基礎 起步四-循環結構">java基礎 起步四-循環結構

Python 基礎一">Python 基礎一

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

Spark基礎學習筆記16：創建RDD

學習筆記20170601">【PMP】學習筆記20170601

基礎起步四-循環結構">java基礎起步四-循環結構

Python基礎一">Python基礎一

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

Spark 基礎學習筆記16：創建RDD

Python 基礎一">Python 基礎一