學(xué)習(xí)筆記20170601">【PMP】學(xué)習(xí)筆記20170601
674
2025-04-01
Structured Streaming是構(gòu)建在Spark SQL引擎上的流式數(shù)據(jù)處理引擎。可以使用靜態(tài)RDD數(shù)據(jù)編寫流式計算過程。當(dāng)流數(shù)據(jù)連續(xù)不斷的產(chǎn)生時,Spark SQL將會增量的、持續(xù)不斷的處理這些數(shù)據(jù),并將結(jié)果更新到結(jié)果集中。其核心是將流式的數(shù)據(jù)看成一張數(shù)據(jù)不斷增加的數(shù)據(jù)庫表,這種流式的數(shù)據(jù)處理模型類似于數(shù)據(jù)塊處理模型,可以把靜態(tài)數(shù)據(jù)庫表的一些查詢操作應(yīng)用在流式計算中,Spark執(zhí)行標(biāo)準(zhǔn)的SQL查詢,從無邊界表中獲取數(shù)據(jù)。
Spark Streaming
Spark Streaming是一個對實時數(shù)據(jù)流進行高通量、容錯處理的流式處理系統(tǒng),可以對多種數(shù)據(jù)源(如 Kafka、Flume、Twitter、Zero 和 TCP 套接字)進行類似map、reduce和join 的復(fù)雜操作,并將結(jié)果保存到外部文件系統(tǒng)、數(shù)據(jù)庫中或應(yīng)用到實時儀表盤上。
Spark Streaming的核心思想是將流式計算分解成一系列短小的批處理作業(yè),這里的批處理引擎是Spark Core。也就是把Spark Streaming的輸入數(shù)據(jù)按照設(shè)定的時間片(如 1 秒)分成一段一段的數(shù)據(jù),每一段數(shù)據(jù)都轉(zhuǎn)換成Spark中的RDD,然后將Spark Streaming中對 DStream的轉(zhuǎn)換操作變?yōu)閷park中的RDD的轉(zhuǎn)換操作,將RDD經(jīng)過操作變成的中間結(jié)果保存在內(nèi)存中。
spark SQL
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。