<fieldset id="kkmww"></fieldset>

<strike id="kkmww"></strike>

<abbr id="kkmww"></abbr>

海量小文件 處理 方式——Improve HAR

網友投稿 975 2022-05-28

改進的HDFS結構包含兩部分：

用于聚合小文件為大文件的客戶端組件，client；

用于緩存資源管理的數據結點組件，data node；

具體架構圖如下：

改進的HDFS模型是基于索引的。存在依賴關系的、同一目錄下的小文件可以聚合為一個大文件，依次來減少每一個小文件元數據都單獨存儲在NameNode中對于NameNode結點內存的消耗。

緩存策略可以增加小文件讀速率。緩存管理器部署在DataNode結點，這樣當每一次讀取小文件時，可以首先從緩存中獲取，而非磁盤。想想看，如果讀文件不在緩存中，那么不得不到DataNode結點的磁盤獲取。磁盤和內存的速率非一個數量級！。

文件整合的設計：每一個合并后的大文件包含被合并小文件的文件大小、在大文件中的偏移量，這些信息被整合在大文件索引文件中。

文件整合程序的功能如下：

就特定目錄下的小文件排序，之后將小文件一個個合并為大文件；

確定待合并小文件總體的數量；

確定合并后大文件大小，并且與HDFS默認塊大小比較。

索引文件是依據每一個小文件的大小、偏移量的創建的。為了在HDFS塊中存儲大文件，需要確保大文件大小不能大于塊大小（默認HDFS塊大小為64M）。

如果合并后的文件大小大于HDFS塊大小，則合并后的文件需要先分片，再存儲到不同的HDFS塊中。

海量小文件處理方式——Improve HAR

基于上述描述，識別大文件中每個文件的偏移量和順序，并據此構建索引文件，從而結束文件整合過程。

----------------------------------------------------------------------------------------------------------------------------------------------------------------

其實看上面的流程，我們發現Improve HAR也存在一些問題，比如合并后的大文件查找，如果是隨機查，也會性能很差。如果索引采用hash方式可以適度緩解該問題。

Hadoop

標簽：海量文件處理方式

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

975 2022-05-28

文件轉換成word）">如何將WPS 設置成默認辦公軟件（如何將wps文件轉換成word）

975 2022-05-28

Excel維恩圖

975 2022-05-28

海量小文件 處理 方式——Improve HAR

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

文件轉換成word）">如何將WPS 設置成默認辦公軟件（如何將wps文件轉換成word）

Excel維恩圖

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

海量小文件處理方式——Improve HAR

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

文件轉換成word）">如何將WPS 設置成默認辦公軟件（如何將wps文件轉換成word）

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦