大數(shù)據(jù)服務(wù)上云的思考">大數(shù)據(jù)服務(wù)上云的思考
713
2025-04-03
3.2.5? HDFS的核心概念
關(guān)于HDFS有以下核心概念,理解這些概念對于更好地了解HDFS的原理有很大幫助。
1.?dāng)?shù)據(jù)塊(block)
每個磁盤都有默認的數(shù)據(jù)塊大小,這是磁盤進行數(shù)據(jù)讀/寫的最小單位。HDFS也有塊的概念,在HDFS 1.x中默認數(shù)據(jù)塊大小為64MB,在HDFS 2.x中默認數(shù)據(jù)塊大小為128MB。
與單一磁盤上的文件系統(tǒng)相似,HDFS上的文件也被劃分成塊大小的多個分塊(chunk),作為獨立的存儲單元。但與面向單一的文件磁盤系統(tǒng)不同的是,HDFS中小于一個塊大小的文件不會占據(jù)整個塊的空間(例如一個1MB的文件存儲在一個128MB的塊中時,文件只會使用1MB的磁盤空間,而不是128MB)。
2.NameNode
NameNode為HDFS集群的管理節(jié)點,一個集群通常只有一臺活動的NameNode,它存放了HDFS的元數(shù)據(jù)且一個集群只有一份元數(shù)據(jù)。NameNode的主要功能是接受客戶端的讀寫服務(wù),NameNode保存的Metadata信息包括文件ownership、文件的permissions,以及文件包括哪些Block、Block保存在哪個DataNode等信息。這些信息在啟動后會加載到內(nèi)存中。
3.DataNode
DataNode中文件的儲存方式是按大小分成若干個Block,存儲到不同的節(jié)點上,Block大小和副本數(shù)通過Client端上傳文件時設(shè)置,文件上傳成功后副本數(shù)可以變更,BlockSize不可變更。默認情況下每個Block都有3個副本。
4.SecondaryNameNode
SecondaryNameNode(簡稱SNN),它的主要工作是幫助NameNode合并edits,減少NameNode啟動時間。SNN執(zhí)行合并時機如下:
* 根據(jù)配置文件設(shè)置的時間間隔fs.checkpoint.period,默認3600秒。
* 根據(jù)配置文件設(shè)置edits log大小fs.checkpoint.size,規(guī)定edits文件的最大值默認是64MB,如圖3.4所示。
圖3.4? 配置文件設(shè)置
5.元數(shù)據(jù)
元數(shù)據(jù)保存在NameNode的內(nèi)存中,以便快速查詢,主要包括fsimage和edits。
* fsimage:元數(shù)據(jù)鏡像文件(保存文件系統(tǒng)的目錄樹)。
* edits:元數(shù)據(jù)操作日志(針對目錄樹的修改操作)被寫入共享存儲系統(tǒng)中,比如NFS、JournalNode,內(nèi)存中保存一份最新的元數(shù)據(jù)鏡像(fsimage+edits)。
大數(shù)據(jù)分析 大數(shù)據(jù) Hadoop 大數(shù)據(jù)
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。