亚洲精品无码久久久久去q,久久亚洲中文字幕精品有坂深雪,国产亚洲综合久久系列

2021年大數據 Spark（二十七）：SparkSQL案例一花式查詢和案例二WordCount

網友投稿 1308 2022-05-30

案例一：花式查詢

案例二：WordCount

基于DSL編程

基于SQL編程

具體演示代碼如下：

案例一：花式查詢

package cn.itcast.sql

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, SparkSession}

/**

* Author itcast

* Desc 演示SparkSQL的各種花式查詢

object FlowerQueryDemo {

case class Person(id:Int,name:String,age:Int)

def main(args: Array[String]): Unit = {

//1.準備環境-SparkSession

val spark: SparkSession = SparkSession.builder().appName("SparkSQL").master("local[*]").getOrCreate()

val sc: SparkContext = spark.sparkContext

sc.setLogLevel("WARN")

//2.加載數據

val lines: RDD[String] = sc.textFile("data/input/person.txt")

//3.切割

//val value: RDD[String] = lines.flatMap(_.split(" "))//錯誤的

val linesArrayRDD: RDD[Array[String]] = lines.map(_.split(" "))

//4.將每一行(每一個Array)轉為樣例類(相當于添加了Schema)

val personRDD: RDD[Person] = linesArrayRDD.map(arr=>Person(arr(0).toInt,arr(1),arr(2).toInt))

//5.將RDD轉為DataFrame(DF)

//注意:RDD的API中沒有toDF方法,需要導入隱式轉換!

import spark.implicits._

val personDF: DataFrame = personRDD.toDF

//6.查看約束

personDF.printSchema()

//7.查看分布式表中的數據集

personDF.show(6,false)//false表示不截斷列名,也就是列名很長的時候不會用...代替

//演示SQL風格查詢

//0.注冊表名

//personDF.registerTempTable("t_person")//已經過時

//personDF.createTempView("t_person")//創建表,如果已存在則報錯:TempTableAlreadyExistsException

//personDF.createOrReplaceGlobalTempView("t_person")//創建全局表,可以夸session使用,查詢的時候使用:SELECT * FROM global_temp.表名;生命周期太大,一般不用

personDF.createOrReplaceTempView("t_person")//創建一個臨時表,只有當前session可用!且表如果存在會替換!

//1.查看name字段的數據

spark.sql("select name from t_person").show

//2.查看?name 和age字段數據

spark.sql("select name,age from t_person").show

//3.查詢所有的name和age，并將age+1

spark.sql("select name,age,age+1 from t_person").show

//4.過濾age大于等于25的

spark.sql("select name,age from t_person where age >=25").show

//5.統計年齡大于30的人數

spark.sql("select count(age) from t_person where age >30").show

//6.按年齡進行分組并統計相同年齡的人數

spark.sql("select age,count(age) from t_person group by age").show

//演示DSL風格查詢

//1.查看name字段的數據

import org.apache.spark.sql.functions._

personDF.select(personDF.col("name")).show

personDF.select(personDF("name")).show

personDF.select(col("name")).show

personDF.select("name").show

//2.查看?name 和age字段數據

personDF.select(personDF.col("name"),personDF.col("age")).show

personDF.select("name","age").show

//3.查詢所有的name和age，并將age+1

//personDF.select("name","age","age+1").show//錯誤,沒有age+1這一列

//personDF.select("name","age","age"+1).show//錯誤,沒有age1這一列

personDF.select(col("name"),col("age"),col("age")+1).show

personDF.select($"name",$"age",$"age"+1).show

//$表示將"age"變為了列對象,先查詢再和+1進行計算

personDF.select('name,'age,'age+1).show

//'表示將age變為了列對象,先查詢再和+1進行計算

//4.過濾age大于等于25的，使用filter方法/where方法過濾

personDF.select("name","age").filter("age>=25").show

personDF.select("name","age").where("age>=25").show

//5.統計年齡大于30的人數

personDF.where("age>30").count()

//6.按年齡進行分組并統計相同年齡的人數

personDF.groupBy("age").count().show

}

案例二：WordCount

前面使用RDD封裝數據，實現詞頻統計WordCount功能，從Spark 1.0開始，一直到Spark 2.0，建立在RDD之上的一種新的數據結構DataFrame/Dataset發展而來，更好的實現數據處理分析。DataFrame 數據結構相當于給RDD加上約束Schema，知道數據內部結構（字段名稱、字段類型），提供兩種方式分析處理數據：DataFrame API（DSL編程）和SQL（類似HiveQL編程），下面以WordCount程序為例編程實現，體驗DataFrame使用。

基于DSL編程

使用SparkSession加載文本數據，封裝到Dataset/DataFrame中，調用API函數處理分析數據（類似RDD中API函數，如flatMap、map、filter等），編程步驟：

第一步、構建SparkSession實例對象，設置應用名稱和運行本地模式；

第二步、讀取HDFS上文本文件數據；

第三步、使用DSL（Dataset?API），類似RDD?API處理分析數據；

第四步、控制臺打印結果數據和關閉SparkSession；

基于SQL編程

也可以實現類似HiveQL方式進行詞頻統計，直接對單詞分組group by，再進行count即可，步驟如下：

第一步、構建SparkSession對象，加載文件數據，分割每行數據為單詞；

第二步、將DataFrame/Dataset注冊為臨時視圖（Spark 1.x中為臨時表）；

第三步、編寫SQL語句，使用SparkSession執行獲取結果；

第四步、控制臺打印結果數據和關閉SparkSession；

具體演示代碼如下：

package cn.itcast.sql

import org.apache.spark.SparkContext

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

/**

* Author itcast

* Desc 使用SparkSQL完成WordCount---SQL風格和DSL風格

object WordCount {

def main(args: Array[String]): Unit = {

//1.準備環境

val spark: SparkSession = SparkSession.builder().appName("WordCount").master("local[*]").getOrCreate()

2021年大數據Spark（二十七）：SparkSQL案例一花式查詢和案例二WordCount

val sc: SparkContext = spark.sparkContext

sc.setLogLevel("WARN")

import spark.implicits._

//2.加載數據

//val rdd: RDD[String] = sc.textFile("data/input/words.txt")//可以使用該方式,然后使用昨天的知識將rdd轉為df/ds

val df: DataFrame = spark.read.text("data/input/words.txt")

val ds: Dataset[String] = spark.read.textFile("data/input/words.txt")

//df.show()//查看分布式表數據

//ds.show()//查看分布式表數據

//3.做WordCount

//切割

//df.flatMap(_.split(" ")) //注意:直接這樣寫報錯!因為df沒有泛型,不知道_是String!

//df.flatMap(row=>row.getAs[String]("value").split(" "))

val wordsDS: Dataset[String] = ds.flatMap(_.split(" "))

//wordsDS.show()

//使用SQL風格做WordCount

wordsDS.createOrReplaceTempView("t_words")

val sql:String =

"""

|select value,count(*) as count

|from t_words

|group by value

|order by count desc

|""".stripMargin

spark.sql(sql).show()

//使用DSL風格做WordCount

wordsDS

.groupBy("value")

.count()

.orderBy($"count".desc)

.show()

+-----+-----+

|value|count|

+-----+-----+

|hello| ???4|

| ?her| ???3|

| ?you| ???2|

| ??me| ???1|

+-----+-----+

|value|count|

+-----+-----+

|hello| ???4|

| ?her| ???3|

| ?you| ???2|

| ??me| ???1|

+-----+-----+

}

無論使用DSL還是SQL編程方式，底層轉換為RDD操作都是一樣，性能一致，查看WEB UI監控中Job運行對應的DAG圖如下：

從上述的案例可以發現將數據封裝到Dataset/DataFrame中，進行處理分析，更加方便簡潔，這就是Spark框架中針對結構化數據處理模：Spark SQL模塊。

官方文檔：

http://spark.apache.org/sql/

spark 大數據

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

1308 2022-05-30

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

1308 2022-05-30

SUBSTITUTE

1308 2022-05-30

2021年大數據 Spark（二十七）：SparkSQL案例一花式查詢和案例二WordCount

亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析

數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）">兩列數據 如何合并成一列，謝謝（如何將兩列數據合并到一列）

SUBSTITUTE

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接