<fieldset id="cqykq"></fieldset>

HBase 使用 最佳 實踐-HBase Bulkload原理介紹

網友投稿 1118 2022-05-29

一、介紹

HBase有多種方式把數據load進去，最直接的方式是通過HBase Client API逐條寫入，或通過MapReduce調用TableOutputFormat方法寫入，但它們都不是最有效的方式。HBase還提供了另一種比較有效的加載數據方式：ImportTsv工具將數據轉換成HBase內部的組織格式輸出成HFile文件；completebulkload工具將ImportTsv生成的文件直接加載到HBase集群內。使用BulkLoad 將會比使用簡單HBase API方式占用更少的CPU和網絡資源。

2.HBase BulkLoad原理

HBase BulkLoad包含兩個主要步驟：

通過MapReduce任務來準備數據；

將數據加載到HBase中；

2.1? ? MR任務準備數據

HBase使用最佳實踐-HBase Bulkload原理介紹

MapReduce的執行過程分為Map端、Reduce端。Map函數輸出的經過partitioner已經確定了Reducer，所有這些信息在Map端將寫入到本地磁盤上；Reducer端通過Fetcher不斷從已完成的map上獲取本Reducer相關的數據，所有獲取的數據將合并在一起然后再交由Reducer函數處理，最終結果在Reducer端輸出。

HBase BulkLoad也需要經過Map端和Reduce端。其中Map端主要完成數據轉換，根據內部算法將輸入文件進行拆分，每個拆分會對應一個Map任務來進行處理；每個Map任務按行讀取文件的內容，將每行數據轉換為HBase相關對象，最終保存在本地文件系統。

Reduce端主要是讀取本地文件系統，然后按照HBase底層的HFile文件格式生產相應文件，并保存在HDFS目錄。

2.2? ? ? 加載數據

通過MapReduce程序生產了HFile文件，但是并沒有導入HBase中。這時需要通過completebulkload工具，將生產的HFile文件導入已經運行的HBase中，從而客戶可以通過HBase獲取到相關數據。

大體上分為兩個階段：

掃描出HDFS上的待導入的HFile。

針對每個HFile，加載到制定的HBase Region對應的數據目錄中。

三. bulkload實驗樣例如附件所示

附件： bulkload實驗開源.docx 343.04KB 下載次數：4次

附件： bulkload實驗_華為.docx 0B 下載次數：3次

EI企業智能 FusionInsight HBase

標簽：HBase 使用最佳實踐

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

1118 2022-05-29

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

1118 2022-05-29

快遞錄入時間表（快遞收寄時間）

1118 2022-05-29

HBase 使用 最佳 實踐-HBase Bulkload原理介紹

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

快遞錄入時間表（快遞收寄時間）

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

定制家居數字化管理模式：提升品質、智能化和個性化的未

智能定制家居管理系統：重新定義家庭生活方式

友情鏈接

HBase使用最佳實踐-HBase Bulkload原理介紹

系統 字體問題（win10系統怎么設置密碼）">WIN10系統 字體問題（win10系統怎么設置密碼）

格式的應用（應用文標題的格式）">標題格式的應用（應用文標題的格式）

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

友情鏈接

HBase 使用最佳實踐-HBase Bulkload原理介紹

系統字體問題（win10系統怎么設置密碼）">WIN10系統字體問題（win10系統怎么設置密碼）

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦