公眾號文章匯總
793
2025-04-04
第Ⅰ部分
Hadoop基礎知識
第1章? 初識Hadoop
第2章? 關于MapReduce
第3章? Hadoop分布式文件系統(tǒng)
第4章? 關于YARN
第5章? Hadoop的I/O操作
第3章
Hadoop分布式文件系統(tǒng)
當數(shù)據(jù)集的大小超過一***立的物理計算機的存儲能力時,就有必要對它進行分區(qū)(partition)并存儲到若干臺單獨的計算機上。管理網(wǎng)絡中跨多臺計算機存儲的文件系統(tǒng)稱為分布式文件系統(tǒng)(distributed filesystem)。該系統(tǒng)架構于網(wǎng)絡之上,勢必會引入網(wǎng)絡編程的復雜性,因此分布式文件系統(tǒng)比普通磁盤文件系統(tǒng)更為復雜。例如,使文件系統(tǒng)能夠容忍節(jié)點故障且不丟失任何數(shù)據(jù),就是一個極大的挑戰(zhàn)。
Hadoop自帶一個稱為HDFS的分布式文件系統(tǒng),即Hadoop Distributed Filesystem。在非正式文檔或舊文檔以及配置文件中,有時也簡稱為DFS,它們是一回事兒。HDFS是Hadoop的旗艦級文件系統(tǒng),也是本章的重點,但實際上Hadoop是一個綜合性的文件系統(tǒng)抽象,因此接下來我們將了解將Hadoop與其他存儲系統(tǒng)集成的途徑,例如本地文件系統(tǒng)和Amazon S3系統(tǒng)。
3.1? HDFS的設計
HDFS以流式數(shù)據(jù)訪問模式來存儲超大文件,運行于商用硬件集群上。讓我們仔細看看下面的描述。
超大文件? “超大文件”在這里指具有幾百MB、幾百GB甚至幾百TB大小的文件。目前已經(jīng)有存儲PB級數(shù)據(jù)的Hadoop 集群了。
流式數(shù)據(jù)訪問? HDFS的構建思路是這樣的:一次寫入、多次讀取是最高效的訪問模式。數(shù)據(jù)集通常由數(shù)據(jù)源生成或從數(shù)據(jù)源復制而來,接著長時間在此數(shù)據(jù)集上進行各種分析。每次分析都將涉及該數(shù)據(jù)集的大部分數(shù)據(jù)甚至全部,因此讀取整個數(shù)據(jù)集的時間延遲比讀取第一條記錄的時間延遲更重要。
商用硬件? Hadoop并不需要運行在昂貴且高可靠的硬件上。它是設計運行在商用硬件(在各種零售店都能買到的普通硬件)的集群上的,因此至少對于龐大的集群來說,節(jié)點故障的幾率還是非常高的。HDFS遇到上述故障時,被設計成能夠繼續(xù)運行且不讓用戶察覺到明顯的中斷。
同樣,那些不適合在HDFS上運行的應用也值得研究。目前HDFS對某些應用領域并不適合,不過以后可能會有所改進。
低時間延遲的數(shù)據(jù)訪問? 要求低時間延遲數(shù)據(jù)訪問的應用,例如幾十毫秒范圍,不適合在HDFS上運行。記住,HDFS是為高數(shù)據(jù)吞吐量應用優(yōu)化的,這可能會以提高時間延遲為代價。目前,對于低延遲的訪問需求,HBase(參見第20 章)是更好的選擇。
大量的小文件? 由于namenode將文件系統(tǒng)的元數(shù)據(jù)存儲在內(nèi)存中,因此該文件系統(tǒng)所能存儲的文件總數(shù)受限于namenode的內(nèi)存容量。根據(jù)經(jīng)驗,每個文件、目錄和數(shù)據(jù)塊的存儲信息大約占150字節(jié)。因此,舉例來說,如果有一百萬個文件,且每個文件占一個數(shù)據(jù)塊,那至少需要300 MB 的內(nèi)存。盡管存儲上百萬個文件是可行的,但是存儲數(shù)十億個文件就超出了當前硬件的能力。
多用戶寫入,任意修改文件? HDFS中的文件寫入只支持單個寫入者,而且寫操作總是以“只添加”方式在文件末尾寫數(shù)據(jù)。它不支持多個寫入者的操作,也不支持在文件的任意位置進行修改。可能以后會支持這些操作,但它們相對比較低效。
分布式 Hadoop
版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。
版權聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權內(nèi)容。