BI報(bào)表的設(shè)計(jì),提升數(shù)據(jù)分析與決策效率">BI報(bào)表的設(shè)計(jì),提升數(shù)據(jù)分析與決策效率
1062
2022-05-29
文章目錄
一、提出任務(wù)
二、準(zhǔn)備工作
(一)啟動(dòng)HDFS服務(wù)
(二)啟動(dòng)Spark服務(wù)
三、實(shí)現(xiàn)步驟
(一)在Spark Shell里完成任務(wù)
(二)編寫Scala程序完成任務(wù)
1、創(chuàng)建Maven項(xiàng)目 - `RDDDemo`
2、添加對(duì)hadoop、scala和spark的依賴
3、給Maven項(xiàng)目配置Scala SDK
4、創(chuàng)建`CalculateSum`單例對(duì)象
5、運(yùn)行程序,查看結(jié)果
6、安裝配置scala-2.12.14
7、更改項(xiàng)目使用的Scala SDK
8、將項(xiàng)目打成jar包 - RDDDemo.jar
9、將RDDDemo.jar包上傳到虛擬機(jī)
10、將jar包提交到Spark服務(wù)器運(yùn)行
11、在HDFS上查看程序運(yùn)行結(jié)果
一、提出任務(wù)
針對(duì)成績(jī)表,計(jì)算每個(gè)學(xué)生總分
二、準(zhǔn)備工作
(一)啟動(dòng)HDFS服務(wù)
執(zhí)行命令:start-dfs.sh
(二)啟動(dòng)Spark服務(wù)
進(jìn)入Spark的sbin目錄執(zhí)行命令:./start-all.sh
三、實(shí)現(xiàn)步驟
(一)在Spark Shell里完成任務(wù)
創(chuàng)建成績(jī)列表scores,基于成績(jī)列表創(chuàng)建rdd1,對(duì)rdd1按鍵歸約得到rdd2,然后查看rdd2內(nèi)容
(二)編寫Scala程序完成任務(wù)
1、創(chuàng)建Maven項(xiàng)目 - RDDDemo
設(shè)置GroupId與ArtifactId
設(shè)置項(xiàng)目名稱與項(xiàng)目保存位置
單擊【Finish】按鈕
2、添加對(duì)hadoop、scala和spark的依賴
在pom.xml文件里添加對(duì)hadoop、scala和spark的依賴
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
3、給Maven項(xiàng)目配置Scala SDK
我們已經(jīng)安裝了scala-sdk_2.13.8
4、創(chuàng)建CalculateSum單例對(duì)象
創(chuàng)建net.hw.rdd包,在包里創(chuàng)建CalculateSum單例對(duì)象
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
5、運(yùn)行程序,查看結(jié)果
運(yùn)行程序CalculateSum,結(jié)果報(bào)錯(cuò)了
出錯(cuò)的原因在于spark-2.4.4的內(nèi)核是spark-core_2.12,不支持我們安裝的Scala版本scala-2.13.8
下載https://downloads.lightbend.com/scala/2.12.14/scala-2.12.14.zip
6、安裝配置scala-2.12.14
2.4.x的spark ? \Longrightarrow ? 選擇2.12.x的scala
解壓到指定位置,比如C盤根目錄
修改Scala環(huán)境變量SCALA_HOME的值
在命令行啟動(dòng)Scala,查看其版本
7、更改項(xiàng)目使用的Scala SDK
打開(kāi)項(xiàng)目結(jié)構(gòu)窗口,將項(xiàng)目使用的Scala SDK改成scala-sdk-2.12.14
8、將項(xiàng)目打成jar包 - RDDDemo.jar
利用IDEA將項(xiàng)目RDDDemo打成jar包
9、將RDDDemo.jar包上傳到虛擬機(jī)
將RDDDemo.jar包上傳到master虛擬機(jī)
10、將jar包提交到Spark服務(wù)器運(yùn)行
執(zhí)行命令:spark-submit --class net.hw.rdd.CalculateSum ./RDDDemo.jar
11、在HDFS上查看程序運(yùn)行結(jié)果
利用Hadoop的WebUI查看/park/result目錄
_SUCCESS表明程序運(yùn)行成功
有兩個(gè)結(jié)果文件:part-00000和part-00001
執(zhí)行命令:hdfs dfs -getmerge /park/result /home/result.txt,將兩個(gè)結(jié)果文件合并下載到本地/home/result.txt
查看本地結(jié)果文件/home/result.txt
Scala spark
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實(shí)的內(nèi)容,請(qǐng)聯(lián)系我們jiasou666@gmail.com 處理,核實(shí)后本網(wǎng)站將在24小時(shí)內(nèi)刪除侵權(quán)內(nèi)容。