Hadoop-2.2.0學習之一Hadoop-2.2.0變化簡介
Hadoop-2.2.0在Hadoop-1.x的基礎上進行了重大改進,主要體現在HDFS和MapReduce上。下面大體介紹HDFS和MapReduce改進的地方。
首先是HDFS聯合。眾所周知,在Hadoop-1.x版本中,集群中只有一個NameNode節點,一旦該節點失效就不能自動切換到備用節點,這也是Hadoop-1.x被人詬病的地方之一。為了水平的擴展NameNode服務,在2.x版本中存在多個獨立的NameNode或者命名空間(Namespace)。這些獨立的NameNode不要求彼此協作,但卻是聯盟的關系,這也是為什么被稱為HDFS聯合或者聯盟的原因。所有的DataNode節點被NameNode節點們作為公用的存儲塊的地方,每個DataNode在集群中的所有NameNode中注冊,并周期性地發送心跳和塊信息報告,同時處理來自所有NameNode的命令。
下一代MapReduce也稱為YARN或者MRv2。在hadoop-0.23引入的新的體系結構將JobTracker的兩個主要功能資源管理和job生命周期管理分為了單獨的組件。新的ResourceManager管理應用程序所使用的計算機資源的全局分配,每個應用一個的ApplicationMaster管理應用程序的調度和協作。一個應用程序或者是從經典MapReduce作業角度來看的一個單獨作業,或者是這種作業的一個有向無環圖(DAG)。ResourceManager和每臺主機一個的NodeManager守護進程組成了計算結構,其中NodeManager管理這臺主機上的用戶進程。事實上,ApplicationMaster是框架特定的類庫,任務是從ResourceManager協調資源以及同NodeManager一起工作進行任務的執行和監控。
上面簡單介紹了Hadoop-2.x版本在HDFS和MapReduce上做的重大改進,細節方面的改進以及實現的還需要進一步閱讀官方文檔和源代碼。
Hadoop MapReduce
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。