<abbr id="emasw"></abbr>

<ul id="emasw"></ul>

Hadoop 搭建偽分布式

網友投稿 794 2022-05-30

概念

海量、高增長、多樣化的信息數據

有三大發行版本

Apache、CDH、HDP

1、高可靠性：

Hadoop假設計算元素和存儲會出現故障，因為它維護多個工作數據副本，在出現故障時可以對失敗節點重新分布處理。

2.高擴展性：

在集群間分配任務數據，可方便擴展數以千計的節點。

3.高效性：

在MapReduce的思想下，Hadoop是并行工作的，以加快任務處理速度。

4.高容錯性：

自動保存多份副本數據，并且能夠自動將失敗的任務重新分配。

Hadoop HDFS：一個高可靠、高吞吐的分布式文件系統。

Hadoop MapReduce：一個分布式的離線并行計算框架。

Hadoop YARN：一個資源調度平臺，負責為運算程序提供服務器運算資源，相當于一個分布式的操作系統，而MaoReduce等運算程序則相當于運算于操作系統之上的應用程序。

ResourceManager：一個中心服務，用來調度、啟動每一個Job所屬的ApplicationMaster。

NodeManager：是每臺機器框架的代理，是執行應用程序的容器，監控應用程序的資源使用情況，并向調度器匯報。

Hadoop Common：Hadoop體系最底層的一個模塊，為Hadoop各個子項目提供各種工具，如：配置文件和日志操作等。

本地模式（默認模式）：不需要啟用單獨進程，直接可以在運行、測試和開發時使用。

偽分布式模式：等同于完全分布式，只有一個節點。

完全分布式模式：多個節點一起運行。

安裝JDK，配置環境變量

安裝HADOOP，配置環境變量

vi /etc/profile export JAVA_HOME=JDK路徑 export HADOOP_HOME=hadoop路徑 PATH=$PATH:$JAVA_HOME/bin PATH=$PATH:$HADOOP_HOME/bin PATH=$PATH:$HADOOP_HOME/sbin

保存后刷新

source /etc/profile

（1）hadoop-env.sh

export JAVA_HOME=JDK路路徑

（2）core-site.xml

fs.defaultFS hdfs://主機名:9000 hadoop.tmp.dir /hadoop安裝目錄/data/tmp

（3）hdfs-site.xml

dfs.replication 1

（1）格式化namenode

hdfs namenade -format

只需要在修改配置后格式化一次，格式化后會生成data和logs文件夾。

（2）啟動namenode

hadoop-daemon.sh start namenode

（3）啟動datanode

hadoop-daemon.sh start datanode

（1）jps（類似ps命令，只列出java相關程序進程）

（2）查看日志，hadoop安裝目錄下的logs文件夾

（3）使用hadoop系統自帶的web程序

http://主機名或ip:50070 訪問HDFS系統

hadoop提供三套操作集群的命令，命令格式相同，①hdfs dfs，②hadoop dfs，③hadoop fs，使用hadoop fs，可操作任何類型的文件系統，其他兩種只能操作HDFS.

（1）HDFS上創建文件夾

hadoop fs -mkdir -p /hdfs上文件夾路徑

（2）從linux上傳文件到HDFS

hadoop fs -put linux上文件路徑 /hdfs上文件夾路徑

（3）查看HDFS目錄結構和文件內容

hadoop fs -ls /hdfs上文件夾路徑 hadoop fs -cat /hdfs上文件路徑

（4）在HDFS上運行官方示例

hadoop jar hadoop安裝目錄/share/hadoop/mapreduce/hadoop-mapreduce-examples-版本號.jar 示例程序名稱（wordcount） /HDFS輸入文件夾 /HDFS輸出文件夾 #輸出文件夾不可事先擁有。

（5）從HDFS上下載文件到linux

hadoop fs -get /hdfs上文件路徑 /linux文件夾

（6）HDFS刪除

hadoop fs -rmr /hdfs上文件或文件夾路徑

（1）在yarn-env.sh和mapred-env.sh中配置JAVA_HOME

（2）yarn-site.sml

yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname 主機名

（3）mapred-site.sml

mapreduce.framework.name yarn

在yarn集群上提交任務，等任務執行完成后，就不能查看log文件了，為了解決這個問題，可以開啟historyserver，實現yarn集群上歷史任務的保存，yarn的web程序中每一個job都對應一個history的鏈接。

mapreduce.jobhistory.address 主機名:10020 mapreduce.jobhistory.webapp.address 主機名:19888

Hadoop搭建偽分布式

必須先啟動HDFS，再啟動YARN。停止時先停止YARN，再停止HDFS

（1）格式化namenode(需先刪除data和logs文件夾)

hdfs namenode -format

（2）啟動NameNode和DataNode

hadoop-daemon.sh start namenode hadoop-daemon.sh start datanode

（3）啟動ResourceManager和NodeManager

yarn-daemon.sh start resourcemanager yarn-daemon.sh start nodemanager

（1）查看yarn的web程序：http://主機名:8088

（2）命令行操作HDFS：hadoop fis -xxx

（3）查看HDFS的web程序：http://主機名:50070

（4）執行官方測試程序dataword

hadoop jar hadoop安裝目錄/share/hadoop/mapreduce/hadoop-mapreduce-examples-版本號.jar wordcount /HDFS輸入文件夾 /HDFS輸出文件夾

輸出文件夾不可事先擁有。輸入文件為統計每個單詞個數，實現常見一個文本，編寫若干個單詞，空格或換行分割。然后上傳到HDFS上，事先創建輸入文件夾，將該文檔上傳于輸入文件夾，最后運行上面命令。執行完成可查看輸出文件夾內文件內容，便為“單詞個數”數行形式展現。

Hadoop 分布式

標簽：Hadoop 搭建分布式

公眾號文章匯總

794 2022-05-30

Nginx搭建LNMP架構

794 2022-05-30

2020-10-12：在做分布式集群時候一般會產生什么問題？">2020-10-12：在做分布式集群時候一般會產生什么問題？

794 2022-05-30

Hadoop 搭建偽分布式

公眾號文章匯總

Nginx搭建LNMP架構

2020-10-12：在做分布式集群時候一般會產生什么問題？">2020-10-12：在做分布式集群時候一般會產生什么問題？

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接