大數據“復活”記
647
2025-03-31
2.2.2 大數據技術生態系統
隨著Hadoop的不斷推廣和應用,社區在2012年推出Hadoop 2.0,并于2018年推出3.0版本。其中HDFS和MapReduce是其核心的組件,成為整個Hadoop生態系統的基石。
HDFS(Hadoop分布式文件系統)作為一個分布式文件系統,通過網絡服務將眾多的X86服務器組合成一個集群。每個服務器使用自身的廉價硬盤構成巨大的存儲池,每一個文件按照設定的塊大小分割成若干個塊,然后按照每個塊保存三份副本的方式分散到不同的節點上。由于沒有采用專用的硬件存儲設備,因此整體成本要低很多,而且由于多副本的存在也保證了數據不會因為個別設備的故障而無法訪問。因此,基于HDFS就可以利用有限的資金來構建PB級的存儲池,而其中所保存的文件則可以通過網絡服務供集群中的所有節點訪問。Hadoop還提供了Flume和Sqoop工具,分別實現實時日志和關系型數據的數據自動化(導入HDFS中),使得HDFS與業務系統能夠更好地銜接起來。
如果說HDFS為大數據分析提供了海量的存儲池,那么Map-Reduce為數據分析提供了所需要的計算力和平臺。MapReduce作為一種編程模型,提供了強大的開發框架,以便讓一個復雜的任務能夠分散到眾多的節點上分布執行(Map),并對所有節點處理后的中間數據進行集中匯總和加工(Reduce)。MapReduce能夠支持廣泛的開發語言而且提供了強大的API,因此數據工程師可以結合業務要求靈活開發數據分析應用。而且為了進一步降低數據分析的門檻,Hadoop還提供了Hive這類輕量級數據倉庫工具。數據分析師可以使用類似于SQL的腳本語言來設計分析程序,Hive會負責自動生成相應的MapReduce Java程序。
在Hadoop 2.0中,針對MapReduce內因Jobtracker負擔過重而導致的集群在可擴展性、調度效率方面的問題,提供了全新的資源管理平臺YARN。該平臺一方面讓業界最大的Hadoop集群規模從4000臺左右擴展到了8000臺以上,另一方面則是通過容器概念的引入實現了并發作業調度的飛躍,從而使得在集群上可以更快地執行大規模的數據分析任務。
除了Hadoop的核心組件,大數據生態體系中還有很多其他的技術在不斷涌現,如:
Spark:Apache社區另一個針對大規模數據處理的分析引擎。與Hadoop MapReduce相比,其基于內存的計算模式在性能上具有極大的提升,而且開發效率表現得也非常出色。
Kafka:一種高吞吐量的分布式發布訂閱消息系統,可以用于構建實時數據管道和流式應用程序,具有水平擴展、容錯等優異特性。
Oozie:作為工作流的工具,它可以把多個Map/Reduce作業組合到一個邏輯工作單元中,從而完成更為大型的任務。
ZooKeeper:是Google的Chubby的開源實現,為分布式系統提供一致性服務。它基于Paxos算法開發,解決了分布式系統在分區容錯性方面的問題。
Druid:一個分布式的支持實時分析的數據存儲系統。與傳統的OLAP系統相比,它在處理數據的規模、數據處理的實時性方面有了顯著的性能改進。
Elastic Search:一個分布式的RESTful風格的搜索和數據分析引擎,能夠解決不斷涌現出的各種用例。Elastic Search允許執行和合并多種類型(結構化、非結構化、地理位置以及度量指標)的搜索,而且支持海量的數據源。
MPP(大規模并行處理)數據庫:一種通過分片將數據和處理分散到若干節點的數據庫技術。同時由于無共享(share nothing)模式,各個節點只處理本地的數據,從而極大地降低了對集中存儲的需求,在保證性能的同時也使得系統具有極強的可擴展性。MPP的著名平臺包括Greenplum、Vertica等,Hadoop社區推出的HBase也是一個典型的MPP數據庫。
以上技術的整合,為企業提供了具備強大存儲及計算能力的分布式大數據處理平臺。相比于Hadoop平臺以批處理方式進行離線分析,Storm和Spark等平臺實現了流式計算,從而使得企業的大數據分析具有了時效性,能夠讓決策在業務流程中即時完成。
大數據平臺就如同云計算的PaaS服務,它的價值體現還需要具體應用的運行。因此通過Java、Scala、Python、R及Hive等開發語言來開發數據分析應用程序才是大數據分析的關鍵,這就涉及模型和算法的投入。
數字化營銷 數字化辦公
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。