《數字化轉型之路》 —2.2.2 大數據技術生態系統

      網友投稿 647 2025-03-31

      2.2.2 大數據技術生態系統


      隨著Hadoop的不斷推廣和應用,社區在2012年推出Hadoop 2.0,并于2018年推出3.0版本。其中HDFS和MapReduce是其核心的組件,成為整個Hadoop生態系統的基石。

      HDFS(Hadoop分布式文件系統)作為一個分布式文件系統,通過網絡服務將眾多的X86服務器組合成一個集群。每個服務器使用自身的廉價硬盤構成巨大的存儲池,每一個文件按照設定的塊大小分割成若干個塊,然后按照每個塊保存三份副本的方式分散到不同的節點上。由于沒有采用專用的硬件存儲設備,因此整體成本要低很多,而且由于多副本的存在也保證了數據不會因為個別設備的故障而無法訪問。因此,基于HDFS就可以利用有限的資金來構建PB級的存儲池,而其中所保存的文件則可以通過網絡服務供集群中的所有節點訪問。Hadoop還提供了Flume和Sqoop工具,分別實現實時日志和關系型數據的數據自動化(導入HDFS中),使得HDFS與業務系統能夠更好地銜接起來。

      如果說HDFS為大數據分析提供了海量的存儲池,那么Map-Reduce為數據分析提供了所需要的計算力和平臺。MapReduce作為一種編程模型,提供了強大的開發框架,以便讓一個復雜的任務能夠分散到眾多的節點上分布執行(Map),并對所有節點處理后的中間數據進行集中匯總和加工(Reduce)。MapReduce能夠支持廣泛的開發語言而且提供了強大的API,因此數據工程師可以結合業務要求靈活開發數據分析應用。而且為了進一步降低數據分析的門檻,Hadoop還提供了Hive這類輕量級數據倉庫工具。數據分析師可以使用類似于SQL的腳本語言來設計分析程序,Hive會負責自動生成相應的MapReduce Java程序。

      在Hadoop 2.0中,針對MapReduce內因Jobtracker負擔過重而導致的集群在可擴展性、調度效率方面的問題,提供了全新的資源管理平臺YARN。該平臺一方面讓業界最大的Hadoop集群規模從4000臺左右擴展到了8000臺以上,另一方面則是通過容器概念的引入實現了并發作業調度的飛躍,從而使得在集群上可以更快地執行大規模的數據分析任務。

      除了Hadoop的核心組件,大數據生態體系中還有很多其他的技術在不斷涌現,如:

      Spark:Apache社區另一個針對大規模數據處理的分析引擎。與Hadoop MapReduce相比,其基于內存的計算模式在性能上具有極大的提升,而且開發效率表現得也非常出色。

      Kafka:一種高吞吐量的分布式發布訂閱消息系統,可以用于構建實時數據管道和流式應用程序,具有水平擴展、容錯等優異特性。

      Oozie:作為工作流的工具,它可以把多個Map/Reduce作業組合到一個邏輯工作單元中,從而完成更為大型的任務。

      ZooKeeper:是Google的Chubby的開源實現,為分布式系統提供一致性服務。它基于Paxos算法開發,解決了分布式系統在分區容錯性方面的問題。

      Druid:一個分布式的支持實時分析的數據存儲系統。與傳統的OLAP系統相比,它在處理數據的規模、數據處理的實時性方面有了顯著的性能改進。

      Elastic Search:一個分布式的RESTful風格的搜索和數據分析引擎,能夠解決不斷涌現出的各種用例。Elastic Search允許執行和合并多種類型(結構化、非結構化、地理位置以及度量指標)的搜索,而且支持海量的數據源。

      《數字化轉型之路》 —2.2.2 大數據技術生態系統

      MPP(大規模并行處理)數據庫:一種通過分片將數據和處理分散到若干節點的數據庫技術。同時由于無共享(share nothing)模式,各個節點只處理本地的數據,從而極大地降低了對集中存儲的需求,在保證性能的同時也使得系統具有極強的可擴展性。MPP的著名平臺包括Greenplum、Vertica等,Hadoop社區推出的HBase也是一個典型的MPP數據庫。

      以上技術的整合,為企業提供了具備強大存儲及計算能力的分布式大數據處理平臺。相比于Hadoop平臺以批處理方式進行離線分析,Storm和Spark等平臺實現了流式計算,從而使得企業的大數據分析具有了時效性,能夠讓決策在業務流程中即時完成。

      大數據平臺就如同云計算的PaaS服務,它的價值體現還需要具體應用的運行。因此通過Java、Scala、Python、R及Hive等開發語言來開發數據分析應用程序才是大數據分析的關鍵,這就涉及模型和算法的投入。

      數字化營銷 數字化辦公

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:excel表格里的字設置成自動換行的方法(excel表格中的文字怎么自動換行)
      下一篇:數據倉庫之變形金剛——集群resize原理介紹
      相關文章
      精品日韩亚洲AV无码一区二区三区 | 18gay台湾男同亚洲男同| 一本色道久久88综合亚洲精品高清| 欧洲 亚洲 国产图片综合| 亚洲视频在线不卡| 久久久亚洲欧洲日产国码是AV| 亚洲韩国—中文字幕| 亚洲欧洲日产国产综合网| 亚洲五月六月丁香激情| 亚洲伊人tv综合网色| 亚洲视屏在线观看| 亚洲欧洲国产视频| 亚洲av午夜精品无码专区| 亚洲色欲色欲www| 亚洲AV无码无限在线观看不卡| 日本亚洲色大成网站www久久| 2020亚洲男人天堂精品| 亚洲一卡2卡3卡4卡5卡6卡 | 亚洲码欧美码一区二区三区| 亚洲AV无码XXX麻豆艾秋| www亚洲精品久久久乳| 亚洲A∨精品一区二区三区| 亚洲欧洲中文日韩久久AV乱码| 中文字幕专区在线亚洲| 国产亚洲精品xxx| 久久精品国产亚洲av影院| 亚洲国产精品成人综合色在线婷婷| 亚洲一区二区三区免费视频| 亚洲xxxx视频| 亚洲Av无码乱码在线观看性色| 亚洲视频一区二区| 国产日韩亚洲大尺度高清| 久久久婷婷五月亚洲97号色| 亚洲欧洲精品在线| 日韩亚洲产在线观看| 亚洲国产成人五月综合网| 亚洲欧洲自拍拍偷午夜色无码| 亚洲av一综合av一区| 亚洲白色白色永久观看| 亚洲熟伦熟女专区hd高清| 亚洲人成人网站在线观看|