<ul id="ocgik"></ul>

<strike id="ocgik"></strike>

以java API方式 提交spark作業

網友投稿 1550 2025-04-01

一、文章背景

在初期學習Spark的時候是以命令行的方式提交Job到集群環境中運行的，試想當一個作業需要重復去執行的時候且linux腳本不會搞，是不是很尷尬！隨著對Spark的深入了解和查看官網提供的文檔示例，了解到spark提供了以sparkLauncher作為spark job提交的唯一入口，可以用Java API編程的方式提交spark job，可以在IDEA中通過創建sparkLauncher對象，進行參數設置后直接點擊Run 運行包含Job的Main類就能成功提交job進行運行。還可以集成到spring項目中，避免了以拼接cmd命令的方式集成到項目中帶來的安全隱患。

二、實現樣例

以java API方式提交spark作業

2.1 主函數樣例

public class TestSparkLauncher {

public static void main(String[] args) throws IOException, InterruptedException {

// 用于配置運行spark的環境變量

HashMap env = new HashMap();

env.put("HADOOP_CONF_DIR", "環境上安裝的hadoop配置文件目錄");

env.put("JAVA_HOME", "環境上的java home");

// 用于指定spark運行時使用的配置文件，默認加載的是環境上安裝的spark home下的conf目錄

env.put("SPARK_CONF_DIR", "自定義的spark配置文件目錄");

SparkLauncher sparkLauncher = new SparkLauncher(env);

sparkLauncher.setAppName("spark job 名稱");

sparkLauncher.setAppResource(" spark jar包在hdfs上的路徑");

sparkLauncher.setSparkHome("環境上安裝的spark路徑");

sparkLauncher.setMainClass(" spark jar包的運行主函數名稱");

sparkLauncher.setDeployMode("spark 運行模式 client 或 cluster 二選一");

// 提交spark job 獲取process

Process process = sparkLauncher.launch();

// client模式下用于輸出運行日志

InputStreamReaderRunnable inputStreamReaderRunnable = new InputStreamReaderRunnable(process.getInputStream(), "input");

Thread inputThread = new Thread(inputStreamReaderRunnable, "LogStreamReader input");

inputThread.start();

InputStreamReaderRunnable errorStreamReaderRunnable = new InputStreamReaderRunnable(process.getErrorStream(), "error");

Thread errorThread = new Thread(errorStreamReaderRunnable, "LogStreamReader error");

errorThread.start();

System.out.println("Waiting for finish...");

// client模式下用于監控spark job 運行結果

int exitCode = process.waitFor();

System.out.println("Finished! Exit code:" + exitCode);

}

2.2 記錄日志線程樣例

public class InputStreamReaderRunnable implements Runnable {

private BufferedReader reader;

private String name;

public InputStreamReaderRunnable(InputStream is, String name) {

this.reader = new BufferedReader(new InputStreamReader(is));

this.name = name;

}

public void run() {

System.out.println("InputStream_" + name + ":");

try {

String line = reader.readLine();

while (line != null) {

System.out.println(line);

line = reader.readLine();

}

reader.close();

} catch (IOException e) {

e.printStackTrace();

}

三、選用這種方式的優劣

優勢：通過SparkLanuncher.lanunch()方法獲取一個process進程，然后調用進程的process.waitFor()方法等待線程返回結果，獲取的輸出信息一切都在掌握之中；

劣勢：使用這種方式需要自己管理運行過程中的輸出信息，比較麻煩。

四、實現過程中遇到的問題

4.1.運行時找不到java_home

在用于配置spark的運行時環境變量的env集合中添加java_home配置或者在sparkLauncher對象內setJavaHome

4.2.開啟kerberos認證后，job提交運行失敗

在sparkLauncher對象中setConf中以key-value形式配置認證文件及名稱

4.3.spark版本兼容較差，

如果日志文件中出現序列化ID不想等的問題，請查看集成的spring項目中的sparkjar包是否與環境安裝的spark版本一致。

以上為項目實現過程demo以及部分問題總結，不足之處，請多多指教。

Java API spark

標簽：Java API 方式提交 Spark

點擊一次就切換（如何一鍵切換）">如何點擊一次就切換（如何一鍵切換）

1550 2025-04-01

Spark為什么快，Spark SQL 一定比 Hive 快嗎">Spark為什么快，Spark SQL 一定比 Hive 快嗎

1550 2025-04-01

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

1550 2025-04-01

<abbr id="ui8yq"></abbr>

<ul id="ui8yq"></ul>

以java API方式 提交spark作業

點擊一次就切換（如何一鍵切換）">如何點擊一次就切換（如何一鍵切換）

Spark為什么快，Spark SQL 一定比 Hive 快嗎">Spark為什么快，Spark SQL 一定比 Hive 快嗎

SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK">【SparkAPI】countApprox、countApproxDistinct、countApproxDistinctByK

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接