《Spark Streaming實時流式大數據處理實戰》 ——3.9 本 章 小 結
3.9? 本 章 小 結
* RDD是Spark內部的一種數據結構,用于記錄分布式數據。
* RDD的核心屬性有5個,其中并發量的大小由partition決定。
* RDD由數據源或者其他RDD通過Transformation產生,會形成一張完整的依賴圖。
* Transformation操作不會觸發真正的計算,只有當調用了Action方法時,Spark才會根據依賴圖分配集群資源進行運算。
* 窄依賴和寬依賴的主要區別點在于,子RDD的partition與父RDD的partition間的依賴關系。
* RDD持久化根據不同的場景可以采取不同的持久化級別,通常情況下使用默認的MEMORY-ONLY即可。
* Spark提供了兩種受限的共享變量,即廣播變量和累加器。廣播變量是一個只讀變量,累加器只有在Driver節點可讀而其他節點只寫,另外需注意使用Spark版本的API不同。
* 最后我們利用一個小實例實現了2.2節中提到的例子,并對整章介紹的各種Transformation和Action進行了重溫和實戰演練。建議讀者自己動手多嘗試,在3.8節實例的基礎上嘗試更多操作,理解大數據編程的特點和蘊含的邏輯。
spark 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。