公眾號文章匯總
794
2022-05-30
概念
海量、高增長、多樣化的信息數據
有三大發行版本
Apache、CDH、HDP
1、高可靠性:
Hadoop假設計算元素和存儲會出現故障,因為它維護多個工作數據副本,在出現故障時可以對失敗節點重新分布處理。
2.高擴展性:
在集群間分配任務數據,可方便擴展數以千計的節點。
3.高效性:
在MapReduce的思想下,Hadoop是并行工作的,以加快任務處理速度。
4.高容錯性:
自動保存多份副本數據,并且能夠自動將失敗的任務重新分配。
Hadoop HDFS:一個高可靠、高吞吐的分布式文件系統。
Hadoop MapReduce:一個分布式的離線并行計算框架。
Hadoop YARN:一個資源調度平臺,負責為運算程序提供服務器運算資源,相當于一個分布式的操作系統,而MaoReduce等運算程序則相當于運算于操作系統之上的應用程序。
ResourceManager:一個中心服務,用來調度、啟動每一個Job所屬的ApplicationMaster。
NodeManager:是每臺機器框架的代理,是執行應用程序的容器,監控應用程序的資源使用情況,并向調度器匯報。
Hadoop Common:Hadoop體系最底層的一個模塊,為Hadoop各個子項目提供各種工具,如:配置文件和日志操作等。
本地模式(默認模式):不需要啟用單獨進程,直接可以在運行、測試和開發時使用。
偽分布式模式:等同于完全分布式,只有一個節點。
完全分布式模式:多個節點一起運行。
安裝JDK,配置環境變量
安裝HADOOP,配置環境變量
vi /etc/profile export JAVA_HOME=JDK路徑 export HADOOP_HOME=hadoop路徑 PATH=$PATH:$JAVA_HOME/bin PATH=$PATH:$HADOOP_HOME/bin PATH=$PATH:$HADOOP_HOME/sbin
1
2
3
4
5
6
7
保存后刷新
source /etc/profile
1
(1)hadoop-env.sh
export JAVA_HOME=JDK路路徑
1
(2)core-site.xml
1
2
3
4
5
6
7
8
9
10
11
12
(3)hdfs-site.xml
1
2
3
4
5
6
7
(1)格式化namenode
hdfs namenade -format
1
只需要在修改配置后格式化一次,格式化后會生成data和logs文件夾。
(2)啟動namenode
hadoop-daemon.sh start namenode
1
(3)啟動datanode
hadoop-daemon.sh start datanode
1
(1)jps(類似ps命令,只列出java相關程序進程)
(2)查看日志,hadoop安裝目錄下的logs文件夾
(3)使用hadoop系統自帶的web程序
http://主機名或ip:50070 訪問HDFS系統
hadoop提供三套操作集群的命令,命令格式相同,①hdfs dfs,②hadoop dfs,③hadoop fs,使用hadoop fs,可操作任何類型的文件系統,其他兩種只能操作HDFS.
(1)HDFS上創建文件夾
hadoop fs -mkdir -p /hdfs上文件夾路徑
1
(2)從linux上傳文件到HDFS
hadoop fs -put linux上文件路徑 /hdfs上文件夾路徑
1
(3)查看HDFS目錄結構和文件內容
hadoop fs -ls /hdfs上文件夾路徑 hadoop fs -cat /hdfs上文件路徑
1
2
(4)在HDFS上運行官方示例
hadoop jar hadoop安裝目錄/share/hadoop/mapreduce/hadoop-mapreduce-examples-版本號.jar 示例程序名稱(wordcount) /HDFS輸入文件夾 /HDFS輸出文件夾 #輸出文件夾不可事先擁有。
1
2
3
(5)從HDFS上下載文件到linux
hadoop fs -get /hdfs上文件路徑 /linux文件夾
1
(6)HDFS刪除
hadoop fs -rmr /hdfs上文件或文件夾路徑
1
(1)在yarn-env.sh和mapred-env.sh中配置JAVA_HOME
(2)yarn-site.sml
1
2
3
4
5
6
7
8
9
10
(3)mapred-site.sml
1
2
3
4
5
在yarn集群上提交任務,等任務執行完成后,就不能查看log文件了,為了解決這個問題,可以開啟historyserver,實現yarn集群上歷史任務的保存,yarn的web程序中每一個job都對應一個history的鏈接。
1
2
3
4
5
6
7
8
9
10
必須先啟動HDFS,再啟動YARN。停止時先停止YARN,再停止HDFS
(1)格式化namenode(需先刪除data和logs文件夾)
hdfs namenode -format
1
(2)啟動NameNode和DataNode
hadoop-daemon.sh start namenode hadoop-daemon.sh start datanode
1
2
(3)啟動ResourceManager和NodeManager
yarn-daemon.sh start resourcemanager yarn-daemon.sh start nodemanager
1
2
(1)查看yarn的web程序:http://主機名:8088
(2)命令行操作HDFS:hadoop fis -xxx
(3)查看HDFS的web程序:http://主機名:50070
(4)執行官方測試程序dataword
hadoop jar hadoop安裝目錄/share/hadoop/mapreduce/hadoop-mapreduce-examples-版本號.jar wordcount /HDFS輸入文件夾 /HDFS輸出文件夾
1
2
輸出文件夾不可事先擁有。輸入文件為統計每個單詞個數,實現常見一個文本,編寫若干個單詞,空格或換行分割。然后上傳到HDFS上,事先創建輸入文件夾,將該文檔上傳于輸入文件夾,最后運行上面命令。執行完成可查看輸出文件夾內文件內容,便為“單詞 個數”數行形式展現。
Hadoop 分布式
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。