大數據“復活”記
818
2025-04-04
一、負責收集數據的工具:
Sqoop(關系型數據導入Hadoop)
Flume(日志數據導入Hadoop,支持數據源廣泛)
Kafka(支持數據源有限,但吞吐大)
二、負責存儲數據的工具:
HBase
MongoDB
Cassandra
Accumulo
MySql
Oracle
DB2
HDFS(Hadoop Distribut File System)2.0
三、底層組件
Apache Common(通用模塊)、
Avro(序列化成二進制)、
OS(Linux、windows。。。)
四、通用工具
Zookeeper分布式協作服務
Oozie工作流流調度系統
Ambari圖形化部署、非xml,跟蹤集群狀態
五、分布式計算框架
MapReduce(通過磁盤離線計算)
Spark(通過內存實時計算)
Storm(實現流式數據計算)
Tez(GAG計算,對MR拆分)
Impala(實現實時交互式計算)
Flink、Slider、Open MPI
HCatalog
YARN(跨集群資源調度管理)以上各種計算框架架構在YAEN上,H2.0引入
六、數據分析處理
Hive數據倉庫
sql語句生成MR作業
Pig工作流引擎
類似sql比MR語法簡單
Mahout數據挖掘庫
提供了諸多機器學習算法
Java、.net
R、Scala、Solr
Impapla、Ohter ISV
七、結果輸出
經過數據分析處理,輸出到BI工具、展示系統
ETL Tools
BI Reporting
RDBMS
OLAP
Hadoop 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。