<fieldset id="qckwc"></fieldset>

【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox

網友投稿 732 2025-04-02

/** * Count the number of elements for each key, collecting the results to a local Map. * * @note This method should only be used if the resulting map is expected to be small, as * the whole thing is loaded into the driver's memory. * To handle very large results, consider using rdd.mapValues(_ => 1L).reduceByKey(_ + _), which * returns an RDD[T, Long] instead of a map. */

計算每個鍵的元素數，將結果放到Map中去。

注意：

只有當數據量很小時，才應使用此方法，因為整個數據都被載入內存中。

如果要處理大量數據，請考慮使用rdd.mapValues(_ => 1L).reduceByKey(_ + _)，

返回的結果是 RDD[T, Long] 而不是Map。

// java public java.util.Map countByKey() // scala def countByKey(): Map[K, Long]

public class CountByKey { public static void main(String[] args) { System.setProperty("hadoop.home.dir", "E:\hadoop-2.7.1"); SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("Spark_DEMO"); JavaSparkContext sc = new JavaSparkContext(sparkConf); JavaPairRDD javaPairRDD1 = sc.parallelizePairs(Lists.newArrayList( new Tuple2("cat", "11"), new Tuple2("dog", "22"), new Tuple2("cat", "33"), new Tuple2("pig", "44"), new Tuple2("duck", "55"), new Tuple2("cat", "66")), 3); Map key = javaPairRDD1.countByKey(); for (Map.Entry entry : key.entrySet()){ System.out.println(entry.getKey()+":"+entry.getValue()); } } }

19/03/20 16:36:11 INFO DAGScheduler: ResultStage 1 (countByKey at CountByKey.java:23) finished in 0.093 s 19/03/20 16:36:11 INFO DAGScheduler: Job 0 finished: countByKey at CountByKey.java:23, took 1.229949 s duck:1 cat:3 dog:1 pig:1 19/03/20 16:36:11 INFO SparkContext: Invoking stop() from shutdown hook

/** * Approximate version of countByKey that can return a partial result if it does * not finish within a timeout. * * The confidence is the probability that the error bounds of the result will * contain the true value. That is, if countApprox were called repeatedly * with confidence 0.9, we would expect 90% of the results to contain the * true count. The confidence must be in the range [0,1] or an exception will * be thrown. * * @param timeout maximum time to wait for the job, in milliseconds * @param confidence the desired statistical confidence in the result * @return a potentially incomplete result, with error bounds */

【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox

CountByKey的近似版本，如果沒有在規定時間內完成就返回部分結果。

@參數超時等待作業的最長時間（毫秒）

@參數置信度結果中所需的統計置信度

@返回一個可能不完整的結果，帶有錯誤界限

// java public PartialResult> countByKeyApprox(long timeout) public PartialResult> countByKeyApprox(long timeout, double confidence) // scala def countByKeyApprox(timeout: Long): PartialResult[Map[K, BoundedDouble]] def countByKeyApprox(timeout: Long, confidence: Double = 0.95): PartialResult[Map[K, BoundedDouble]]

EI企業智能 Java spark 可信智能計算服務 TICS 智能數據

標簽：Spark Java

Java的面向對象編程">Java的面向對象編程

732 2025-04-02

一個 Java class">我是一個 Java class

732 2025-04-02

util.Random和concurrent.ThreadLocalRandom對比">java.util.Random和concurrent.ThreadLocalRandom對比

732 2025-04-02

<fieldset id="a8gaq"></fieldset>

【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox

Java的面向對象編程">Java的面向對象編程

一個 Java class">我是一個 Java class

util.Random和concurrent.ThreadLocalRandom對比">java.util.Random和concurrent.ThreadLocalRandom對比

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

【SparkAPI】JavaPairRDD——countByKey、countByKeyApprox

Java的面向對象編程">Java的面向對象編程

一個Java class">我是一個Java class

util.Random和concurrent.ThreadLocalRandom對比">java.util.Random和concurrent.ThreadLocalRandom對比

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

一個 Java class">我是一個 Java class