Hadoop搭建分布式

      網友投稿 794 2022-05-30

      概念

      海量、高增長、多樣化的信息數據

      有三大發行版本

      Apache、CDH、HDP

      1、高可靠性:

      Hadoop假設計算元素和存儲會出現故障,因為它維護多個工作數據副本,在出現故障時可以對失敗節點重新分布處理。

      2.高擴展性:

      在集群間分配任務數據,可方便擴展數以千計的節點。

      3.高效性:

      在MapReduce的思想下,Hadoop是并行工作的,以加快任務處理速度。

      4.高容錯性:

      自動保存多份副本數據,并且能夠自動將失敗的任務重新分配。

      Hadoop HDFS:一個高可靠、高吞吐的分布式文件系統。

      Hadoop MapReduce:一個分布式的離線并行計算框架。

      Hadoop YARN:一個資源調度平臺,負責為運算程序提供服務器運算資源,相當于一個分布式的操作系統,而MaoReduce等運算程序則相當于運算于操作系統之上的應用程序。

      ResourceManager:一個中心服務,用來調度、啟動每一個Job所屬的ApplicationMaster。

      NodeManager:是每臺機器框架的代理,是執行應用程序的容器,監控應用程序的資源使用情況,并向調度器匯報。

      Hadoop Common:Hadoop體系最底層的一個模塊,為Hadoop各個子項目提供各種工具,如:配置文件和日志操作等。

      本地模式(默認模式):不需要啟用單獨進程,直接可以在運行、測試和開發時使用。

      偽分布式模式:等同于完全分布式,只有一個節點。

      完全分布式模式:多個節點一起運行。

      安裝JDK,配置環境變量

      安裝HADOOP,配置環境變量

      vi /etc/profile export JAVA_HOME=JDK路徑 export HADOOP_HOME=hadoop路徑 PATH=$PATH:$JAVA_HOME/bin PATH=$PATH:$HADOOP_HOME/bin PATH=$PATH:$HADOOP_HOME/sbin

      1

      2

      3

      4

      5

      6

      7

      保存后刷新

      source /etc/profile

      1

      (1)hadoop-env.sh

      export JAVA_HOME=JDK路路徑

      1

      (2)core-site.xml

      fs.defaultFS hdfs://主機名:9000 hadoop.tmp.dir /hadoop安裝目錄/data/tmp

      1

      2

      3

      4

      5

      6

      7

      8

      9

      10

      11

      12

      (3)hdfs-site.xml

      dfs.replication 1

      1

      2

      3

      4

      5

      6

      7

      (1)格式化namenode

      hdfs namenade -format

      1

      只需要在修改配置后格式化一次,格式化后會生成data和logs文件夾。

      (2)啟動namenode

      hadoop-daemon.sh start namenode

      1

      (3)啟動datanode

      hadoop-daemon.sh start datanode

      1

      (1)jps(類似ps命令,只列出java相關程序進程)

      (2)查看日志,hadoop安裝目錄下的logs文件夾

      (3)使用hadoop系統自帶的web程序

      http://主機名或ip:50070 訪問HDFS系統

      hadoop提供三套操作集群的命令,命令格式相同,①hdfs dfs,②hadoop dfs,③hadoop fs,使用hadoop fs,可操作任何類型的文件系統,其他兩種只能操作HDFS.

      (1)HDFS上創建文件夾

      hadoop fs -mkdir -p /hdfs上文件夾路徑

      1

      (2)從linux上傳文件到HDFS

      hadoop fs -put linux上文件路徑 /hdfs上文件夾路徑

      1

      (3)查看HDFS目錄結構和文件內容

      hadoop fs -ls /hdfs上文件夾路徑 hadoop fs -cat /hdfs上文件路徑

      1

      2

      (4)在HDFS上運行官方示例

      hadoop jar hadoop安裝目錄/share/hadoop/mapreduce/hadoop-mapreduce-examples-版本號.jar 示例程序名稱(wordcount) /HDFS輸入文件夾 /HDFS輸出文件夾 #輸出文件夾不可事先擁有。

      1

      2

      3

      (5)從HDFS上下載文件到linux

      hadoop fs -get /hdfs上文件路徑 /linux文件夾

      1

      (6)HDFS刪除

      hadoop fs -rmr /hdfs上文件或文件夾路徑

      1

      (1)在yarn-env.sh和mapred-env.sh中配置JAVA_HOME

      (2)yarn-site.sml

      yarn.nodemanager.aux-services mapreduce_shuffle yarn.resourcemanager.hostname 主機名

      1

      2

      3

      4

      5

      6

      7

      8

      9

      10

      (3)mapred-site.sml

      mapreduce.framework.name yarn

      1

      2

      3

      4

      5

      在yarn集群上提交任務,等任務執行完成后,就不能查看log文件了,為了解決這個問題,可以開啟historyserver,實現yarn集群上歷史任務的保存,yarn的web程序中每一個job都對應一個history的鏈接。

      mapreduce.jobhistory.address 主機名:10020 mapreduce.jobhistory.webapp.address 主機名:19888

      1

      2

      3

      4

      5

      6

      7

      8

      9

      Hadoop搭建偽分布式

      10

      必須先啟動HDFS,再啟動YARN。停止時先停止YARN,再停止HDFS

      (1)格式化namenode(需先刪除data和logs文件夾)

      hdfs namenode -format

      1

      (2)啟動NameNode和DataNode

      hadoop-daemon.sh start namenode hadoop-daemon.sh start datanode

      1

      2

      (3)啟動ResourceManager和NodeManager

      yarn-daemon.sh start resourcemanager yarn-daemon.sh start nodemanager

      1

      2

      (1)查看yarn的web程序:http://主機名:8088

      (2)命令行操作HDFS:hadoop fis -xxx

      (3)查看HDFS的web程序:http://主機名:50070

      (4)執行官方測試程序dataword

      hadoop jar hadoop安裝目錄/share/hadoop/mapreduce/hadoop-mapreduce-examples-版本號.jar wordcount /HDFS輸入文件夾 /HDFS輸出文件夾

      1

      2

      輸出文件夾不可事先擁有。輸入文件為統計每個單詞個數,實現常見一個文本,編寫若干個單詞,空格或換行分割。然后上傳到HDFS上,事先創建輸入文件夾,將該文檔上傳于輸入文件夾,最后運行上面命令。執行完成可查看輸出文件夾內文件內容,便為“單詞 個數”數行形式展現。

      Hadoop 分布式

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:《TypeScript圖形渲染實戰:2D架構設計與實現》 —1.2.4 第一個TypeScript程序
      下一篇:【直播回顧】企業協同管理新模式,看華為云攜手致遠互聯加速企業數智轉型!
      相關文章
      亚洲国产精彩中文乱码AV| 亚洲国语精品自产拍在线观看| 激情小说亚洲色图| 亚洲成年人电影网站| 亚洲AV无码一区二区二三区软件| 亚洲一区二区三区影院| 国产啪亚洲国产精品无码| 亚洲精品人成无码中文毛片 | 亚洲AV综合色区无码一区爱AV | 亚洲国产日韩在线一区| 久久久久久亚洲精品成人| 久久精品国产亚洲AV无码麻豆| 香蕉蕉亚亚洲aav综合| 久久国产精品亚洲综合 | 亚洲中文久久精品无码ww16| 久久精品国产亚洲Aⅴ香蕉| 久久久青草青青国产亚洲免观| 国产精品亚洲综合专区片高清久久久| 超清首页国产亚洲丝袜| 在线亚洲97se亚洲综合在线| 国产av无码专区亚洲av果冻传媒| 国产亚洲美女精品久久久2020| 国产国拍精品亚洲AV片| 国产亚洲综合网曝门系列| 亚洲精品~无码抽插| 精品久久久久久亚洲| 久久精品夜色国产亚洲av| 亚洲男人第一av网站| 亚洲精品自拍视频| 亚洲av日韩av无码av| 亚洲色大情网站www| 亚洲日韩在线中文字幕综合| 国产精品亚洲а∨无码播放麻豆| 国产亚洲女在线线精品| 亚洲精品国产电影| 亚洲精品无码MV在线观看| 久久亚洲精品成人| 亚洲国产高清美女在线观看| 亚洲男人天堂2018av| 精品国产亚洲一区二区三区在线观看 | 亚洲另类无码一区二区三区|