<ul id="wa0ik"></ul>

<strike id="wa0ik"></strike>

<ul id="wa0ik"></ul>

Flume快速 入門 系列(1) | Flume的簡單介紹

網友投稿 1082 2022-05-29

在一個完整的離線大數據處理系統中，除了HDFS+MapReduce+Hive組成分析系統的核心之外，還需要數據采集、結果數據導出、任務調度等不可或缺的輔助系統，而這些輔助工具在hadoop生態體系中都有便捷的開源框架，在此，我們首先來介紹下數據采集部分所用的的開源框架——flume。

1. Flume定義

Flume快速入門系列(1) | Flume的簡單介紹

2. Flume的優點

3. Flume采集系統結構圖

3.1 簡單結構

3.2 復雜結構

3.3 Flume組成架構詳解

3.4 Flume拓撲結構

4. Flume Agent內部原理

1. Flume定義

Flume是Cloudera提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸的系統。Flume基于流式架構，靈活簡單。

Flume可以采集文件，socket數據包、文件、文件夾、kafka等各種形式源數據，又可以將采集到的數據(下沉sink)輸出到HDFS、hbase、hive、kafka等眾多外部存儲系統中

一般的采集需求，通過對flume的簡單配置即可實現

Flume針對特殊場景也具備良好的自定義擴展能力，因此，flume可以適用于大部分的日常數據采集場景。

那么我們為什么要選用Flume呢？

2. Flume的優點

可以和任意存儲進程集成。

輸入的的數據速率大于寫入目的存儲的速率，flume會進行緩沖，減小hdfs的壓力。

flume中的事務基于channel，使用了兩個事務模型（sender + receiver），確保消息被可靠發送。

Flume使用兩個獨立的事務分別負責從soucrce到channel，以及從channel到sink的事件傳遞。一旦事務中所有的數據全部成功提交到channel，那么source才認為該數據讀取完成。同理，只有成功被sink寫出去的數據，才會從channel中移除。

3. Flume采集系統結構圖

3.1 簡單結構

單個agent采集數據

3.2 復雜結構

多級agent之間串聯

3.3 Flume組成架構詳解

1. Agent

Agent是一個JVM進程，它以事件的形式將數據從源頭送至目的。

Agent主要有3個部分組成，Source、Channel、Sink。

2.Source

Source是負責接收數據到Flume Agent的組件。Source組件可以處理各種類型、各種格式的日志數據，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

3. Channel

Channel是位于Source和Sink之間的緩沖區。因此，Channel允許Source和Sink運作在不同的速率上。Channel是線程安全的，可以同時處理幾個Source的寫入操作和幾個Sink的讀取操作。

Flume自帶兩種Channel：Memory Channel和File Channel。

Memory Channel是內存中的隊列。Memory Channel在不需要關心數據丟失的情景下適用。如果需要關心數據丟失，那么Memory Channel就不應該使用，因為程序死亡、機器宕機或者重啟都會導致數據丟失。

File Channel將所有事件寫到磁盤。因此在程序關閉或機器宕機的情況下不會丟失數據。

4. Sink

Sink不斷地輪詢Channel中的事件且批量地移除它們，并將這些事件批量寫入到存儲或索引系統、或者被發送到另一個Flume Agent。

Sink是完全事務性的。在從Channel批量刪除數據之前，每個Sink用Channel啟動一個事務。批量事件一旦成功寫出到存儲系統或下一個Flume Agent，Sink就利用Channel提交事務。事務一旦被提交，該Channel從自己的內部緩沖區刪除事件。

Sink組件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定義。

5. Event

傳輸單元，Flume數據傳輸的基本單元，以事件的形式將數據從源頭送至目的地。 Event由可選的header和載有數據的一個byte array 構成。Header是容納了key-value字符串對的HashMap。

3.4 Flume拓撲結構

1. Flume Agent連接

這種模式是將多個flume給順序連接起來了，從最初的source開始到最終sink傳送的目的存儲系統。此模式不建議橋接過多的flume數量， flume數量過多不僅會影響傳輸速率，而且一旦傳輸過程中某個節點flume宕機，會影響整個傳輸系統。

2. 單source，多channel、sink

Flume支持將事件流向一個或者多個目的地。這種模式將數據源復制到多個channel中，每個channel都有相同的數據，sink可以選擇傳送的不同的目的地。

3. Flume負載均衡

Flume支持使用將多個sink邏輯上分到一個sink組，flume將數據發送到不同的sink，主要解決負載均衡和故障轉移問題。

4. Flume Agent聚合

這種模式是我們最常見的，也非常實用，日常web應用通常分布在上百個服務器，大者甚至上千個、上萬個服務器。產生的日志，處理起來也非常麻煩。用flume的這種組合方式能很好的解決這一問題，每臺服務器部署一個flume采集日志，傳送到一個集中收集日志的flume，再由此flume上傳到hdfs、hive、hbase、jms等，進行日志分析。

4. Flume Agent內部原理

好了。本期的分享到此結束！

看完就贊，養成習慣！！！ \color{#FF0000}{看完就贊，養成習慣?。。 看完就贊，養成習慣?。?！^ _ ^ ?? ?? ??

碼字不易，大家的支持就是我堅持下去的動力。后不要忘了關注我哦！

Hadoop

標簽：flume 快速入門系列

elasticsearch入門 系列">elasticsearch入門 系列

1082 2022-05-29

快速跳到我想要的那一頁（怎么快速到下一頁）">怎么快速跳到我想要的那一頁（怎么快速到下一頁）

1082 2022-05-29

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

1082 2022-05-29

<ul id="w00i0"></ul>

<ul id="w00i0"></ul>

Flume快速 入門 系列(1) | Flume的簡單介紹

elasticsearch入門 系列">elasticsearch入門 系列

快速跳到我想要的那一頁（怎么快速到下一頁）">怎么快速跳到我想要的那一頁（怎么快速到下一頁）

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

推薦文章

企業生產管理是什么，企業生產管理軟件

進盤點進銷存軟件排行榜前十名

進銷存系統哪個簡單好用？進銷存系統優點

工廠生產管理（工廠生產管理流程及制度）

生產管理軟件，機械制造業生產管理，制造業生產過程管理軟件

進銷存軟件和ERP有什么區別？進銷存與erp軟件理解

進銷存如何進行庫存管理

如何利用excel制作銷售訂單管理系統？

數據庫訂單管理系統有哪些功能？數據庫訂單管理系統怎么設計？

什么是數據庫管理系統？

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理 系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

WPS2016怎么繪制簡單的價格表?

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

Flume快速入門系列(1) | Flume的簡單介紹

elasticsearch入門系列">elasticsearch入門系列

快速跳到我想要的那一頁（怎么快速到下一頁）">怎么快速跳到我想要的那一頁（怎么快速到下一頁）

深入淺出etcd系列】3. 日志同步">【深入淺出etcd系列】3. 日志同步

推薦文章

最近發表

熱評文章

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

進銷存庫存管理系統（智慧進銷存）">智能進銷存庫存管理系統（智慧進銷存）

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工

進銷存庫存管理盤點">簡單進銷存庫存管理盤點

友情鏈接

零代碼開發是什么？2022低代碼平臺排行榜">零代碼開發是什么？2022低代碼平臺排行榜

在線文檔哪家強？8款在線文檔編輯軟件推薦">在線文檔哪家強？8款在線文檔編輯軟件推薦

系統的功能有哪些？餐飲服務系統的構成及工作程序">連鎖餐飲管理系統的功能有哪些？餐飲服務系統的構成及工