【云駐共創】華為云數據庫之大數據入門與應用(上)

      網友投稿 1156 2025-04-01

      前言

      本文主要介紹的內容有:

      大數據是什么

      華為大數據解決方案介紹

      一、大數據是什么

      1.大數據的產生和發展

      1.1 大數據產生的背景

      大數據產生的背景主要來源于三個方面:信息科技進步、云計算技術興起、數據資源化趨勢。

      隨著手機及其他智能設備的興起,全球網絡在線人數激增,我們的生活已經被數字信息所包圍,而這些所謂的數字信息就是我們通常所說的"數據",我們可以將其稱為大數據浪潮,由此可以看出,智能化設備的不斷普及是大數據迅速增長的重要因素。

      面對數據爆炸式的增長,存儲設備的性能也得到相應的提高。計算機產業會進行周期性的更新換代,表現在計算能力和性能的不斷提高。同時,以前的低速帶寬也已經遠遠不能滿足數據傳輸的要求,各種高速高頻帶寬不斷投入使用,光纖傳輸帶寬的增長速度甚至超越了存儲設備性能的提高速度。由此可以看出,物聯網的廣泛應用、存儲設備性能的提高、網絡帶寬的不斷增長也是大數據迅速增長的重要因素。

      綜上所述,智能設備的普及、物聯網的廣泛應用、存儲設備性能的提高、網絡帶寬的不斷增長正是信息科技進步的體現,它們為大數據的產生提供了儲存和流通的物質基礎。

      云計算技術是互聯網行業的一項新興技術,它的出現使互聯網行業產生了巨大的變革,我們平常所使用的各種網絡云盤,就是云計算技術的一種具化表現。云計算技術通俗的來講就是使用云端共享的軟件、硬件以及各種應用,來得到我們想要的操作結果,而操作過程則由專業的云服務團隊去完成。我們通常所說的云端就是"數據中心",現在國內各大互聯網公司、電信運營商、銀行乃至政府各部委都建立了各自的數據中心,云計算技術已經在各行各業得到普及,并進一步占據優勢地位。

      云空間是數據存儲的一種新模式,云計算技術將原本分散的數據集中在數據中心,為龐大數據的處理和分析提供了可能,可以說云計算為大數據龐大的數據存儲和分散的用戶訪問提供了必需的空間和途徑,是大數據誕生的技術基礎。

      根據產生的來源,大數據可以分為消費大數據和工業大數據。

      消費大數據:消費大數據是人們日常生活產生的大眾數據,雖然只是人們在互聯網上留下的印記,但各大互聯網公司早已開始積累和爭奪數據,谷歌依靠世界上最大的網頁數據庫,充分挖掘數據資產的潛在價值,打破了微軟的壟斷。Facebook基于人際關系數據庫,推出了graph search搜索引擎;在國內阿里和京東兩家最大的電商平臺也打起了數據戰,利用數據評估對手的戰略動向、促銷策略等等。

      工業大數據:在工業大數據方面,眾多傳統制造企業利用大數據成功實現數字轉型表明,隨著"智能制造”快速普及,工業與互聯網深度融合創新,工業大數據技術及應用將成為未來提升制造業生產力、競爭力、創新能力的關鍵要素。

      1.2 大數據發展歷程

      大數據產生和發展主要分為三個階段:萌芽期、成熟期、大規模應用期。

      隨著數據挖掘理論和數據庫技術的逐步成熟,一批商業智能工具和知識管理技術開始應用,比如:數據倉庫、專家系統、知識管理系統等。

      商業智能工具:數據倉庫、專家系統。

      知識管理技術:知識管理系統。

      這一階段可以看做是大數據發展的萌芽時期,在當時大數據還只是作為一種構想或者假設被極少數的學者進行研究和討論,其含義也僅限于數據量的巨大,并沒有更進一步的探索有關數據的收集、處理和存儲等問題。

      Web2.0應用的迅猛發展,非結構化數據大量產生,使得傳統方法難以應付,而大數據技術卻快速突破,大數據的解決方案也逐漸的走向成熟,大數據在成熟期形成了并行計算與分布式系統兩大核心技術。

      谷歌的GFS和MapReduce等大數據技術受到追捧,開源技術Hadoop平臺也開始大行其道。

      并行計算:MapReduce。

      分布式系統:GFS、Hadoop

      這一階段被看做是大數據的發展時期,大數據作為一個新興名詞開始被理論界所關注,其概念和特點得到進一步的豐富,相關的數據處理技術相繼出現,大數據開始展現活力。

      2010年以后大數據開始廣泛應用到各行各業,人們開始用數據來驅動決策,社會信息化、智能化程度也大幅度提高。

      2012年世界經濟論壇在瑞士達沃斯召開,會上討論了大數據相關的系列問題,發布了名為《大數據,大影響》的報告,向全球正式宣布大數據時代的到來。

      這一階段被看做是大數據的完成期,大數據被各行各業關注和研究,研究大數據在各個領域中的應用情況,以及大數據的技術架構。各國政府也為應對大數據時代的到來,制定相應的戰略。

      2.大數據的基本概念

      2.1 大數據的定義

      到目前為止大數據還沒有明確統一的定義,不同組織機構對大數據有著不同描述。

      1、麥肯錫(McKinsey)

      大數據指其大小超出了典型數據庫軟件的采集、存儲、管理和分析等能力的數據集。

      2、維基百科(Wikipedia)

      大數據是無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的大量而復雜的數據集。

      3、美國國家標準技術研究院(NIST)

      大數據是數量大、獲取速度快或形態多樣的數據。難以用傳統關系型數據分析方法進行有效分析,或者需要大規模的水平擴展才能高效處理。

      4、Gartner公司

      大數據是體積大、快速和多樣化的信息資產,需要高效率和創新型的信息技術加以處理,以提高發現洞察、做出決策和優化流程的能力。

      2.2 大數據的4V特征

      對于上面定義的分析可見大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低的四大特征。

      Volume(容量):隨著信息化技術的高速發展,數據開始爆發性增長。大數據中的數據不再以幾個GB或幾個TB為單位來衡量,而是以PB(1千個T)、EB(1百萬個T)或ZB(10億個T)為計量單位。

      容量主要是指非結構化數據的模型和增長速度。主要的特性如下:

      占總數據量的80~90%。

      比結構化數據增長10~50倍

      傳統數據倉庫的10~50倍

      Variety(多樣化):多樣性主要體現在數據來源多、數據種類多和關聯性強這三個方面。

      數據來源多:企業所面對的傳統數據主要是交易數據,而互聯網和物聯網的發展,帶來了諸如社交網站、傳感器等多種來源的數據。而由于數據來源于不同的應用系統和不同的設備,決定了大數據形式的多樣性。大體可以分為三類:一是結構化數據,如財務系統數據、信息管理系統數據、醫療系統數據等,其特點是數據間因果關系強;二是非結構化的數據,如視頻、圖片、音頻等,其特點是數據間沒有因果關系;三是半結構化數據,如HTML文檔、郵件、網頁等,其特點是數據間的因果關系弱。

      數據種類多:以非結構化數據為主。傳統的企業中,數據都是以表格的形式保存。而大數據中有70%-85%的數據是如圖片、音頻、視頻、網絡日志、鏈接信息等非結構化和半結構化的數據。

      關聯性強:頻繁交互,如游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有很強的關聯性。

      多樣化主要指大數據異構和多樣性。主要的特性如下:

      數據有多種不同形式

      數據無模式或者模式不明顯

      Value(價值):盡管企業擁有大量數據,但是發揮價值的僅是其中非常小的部分。大數據背后潛藏的價值巨大。由于大數據中有價值的數據所占比例很小,而大數據真正的價值體現在從大量不相關的各種類型的數據中。挖掘出對未來趨勢與模式預測分析有價值的數據,并通過機器學習方法、人工智能方法或數據挖掘方法深度分析,并運用于農業、金融、醫療等各個領域,以期創造更大的價值。

      價值主要指大量不相關信息和價值密度低。主要的特性如下:

      需要通過深度復雜分析才可以對未來趨勢與模式進行預測

      Velocity(高效):這是大數據區分于傳統數據挖掘最顯著的特征。大數據與海量數據的重要區別在兩方面:一方面,大數據的數據規模更大;另一方面,大數據對處理數據的響應速度有更嚴格的要求。實時分析而非批量分析,數據輸入、處理與丟棄立刻見效,幾乎無延遲。數據的增長速度和處理速度是大數據高速性的重要體現。

      高效主要指實現實時分析,實時呈現分析結果。主要的特性如下:

      實時呈現數據分析結果

      3.Hadoop生態系統簡介

      3.1 Hadoop的介紹

      Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺。為用戶提供了系統底層細節透明的分布式基礎架構,用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力進行高速運算和存儲。

      Hadoop是基于Java語言開發的,具有很好的跨平臺特性并且可以部署在廉價的計算機集群中。

      Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS為海量的數據提供了存儲,則MapReduce為海量的數據提供了計算。

      HDFS是GFS克隆版。是Hadoop體系中數據存儲管理的基礎。它是一個高度容錯的系統,能檢測和應對硬件故障,用于在低成本的通用硬件上運行。

      【云駐共創】華為云數據庫之大數據入門與應用(上)

      HDFS簡化了文件的一致性模型,通過流式數據訪問,提供高吞吐量應用程序數據訪問功能,適合帶有大型數據集的應用程序。

      HDFS主要有以下幾個部分組成:

      1、Client:切分文件;訪問HDFS;與NameNode交互,獲取文件位置信息;與DataNode交互,讀取和寫入數據。

      2、NameNode:Master節點,在hadoop1.X中只有一個,管理HDFS的名稱空間和數據塊映射信息,配置副本策略,處理客戶端請求。對于大型的集群來講,Hadoop1.x存在兩個最大的缺陷:

      對于大型的集群,namenode的內存成為瓶頸,namenode的擴展性的問題。

      namenode的單點故障問題。

      針對以上的兩個缺陷,Hadoop2.x以后分別對這兩個問題進行了解決。

      提出了Federation namenode來解決,該方案主要是通過多個namenode來實現多個命名空間來實現namenode的橫向擴張。從而減輕單個namenode內存問題。

      hadoop2.X提出了實現兩個namenode實現熱備HA的方案來解決。其中一個是處于standby狀態,一個處于active狀態。

      3、DataNode:Slave節點,存儲實際的數據,匯報存儲信息給NameNode。

      4、Secondary NameNode:輔助NameNode,分擔其工作量;定期合并fsimage和edits,推送給NameNode;緊急情況下,可輔助恢復NameNode,但Secondary NameNode并非NameNode的熱備。

      目前,在硬盤不壞的情況,我們可以通過secondarynamenode來實現namenode的恢復。

      Hadoop MapReduce是google MapReduce克隆版。MapReduce是一種計算模型,用以進行大數據量的計算。其中Map對數據集上的獨立元素進行指定的操作,生成鍵-值對形式中間結果。Reduce則對中間結果中相同"鍵"的所有"值"進行規約,以得到最終結果。MapReduce這樣的功能劃分,非常適合在大量計算機組成的分布式并行環境里進行數據處理。

      MapReduce計算框架發展到現在有兩個版本的MapReduce的API,針對MR1主要組件有以下幾個部分組成:

      JobTracker:Master節點,只有一個,主要任務是資源的分配和作業的調度及監督管理,管理所有作業,作業的監控、錯誤處理等;將任務分解成一系列任務,并分派給TaskTracker。

      TaskTracker:Slave節點,運行Map Task和Reduce Task;并與Job Tracker交互,匯報任務狀態。

      Map Task:解析每條數據記錄,傳遞給用戶編寫的map(),并執行,將輸出結果寫入本地磁盤。

      Reducer Task:從Map Task的執行結果中,遠程讀取輸入數據,對數據進行排序,將數據按照分組傳遞給用戶編寫的reduce函數執行。

      在這個過程中,有一個shuffle過程,對于該過程是理解MapReduce計算框架是關鍵。該過程包含map函數輸出結果到reduce函數輸入這一個中間過程中所有的操作,稱之為shuffle過程。在這個過程中,可以分為map端和reduce端。

      1、輸入數據進行分片之后,分片的大小跟原始的文件大小、文件塊的大小有關。每一個分片對應的一個map任務。

      2、map任務在執行的過程中,會將結果存放到內存當中,當內存占用達到一定的閾值(這個閾值是可以設置的)時,map會將中間的結果寫入到本地磁盤上,形成臨時文件這個過程叫做溢寫。

      3、map在溢寫的過程中,會根據指定reduce任務個數分別寫到對應的分區當中,這就是partition過程。每一個分區對應的是一個reduce任務。并且在寫的過程中,進行相應的排序。在溢寫的過程中還可以設置conbiner過程,該過程跟reduce產生的結果應該是一致的,因此該過程應用存在一定的限制,需要慎用。

      4、每一個map端最后都只存在一個臨時文件作為reduce的輸入,因此會對中間溢寫到磁盤的多個臨時文件進行合并Merge操作。最后形成一個內部分區的一個臨時文件。

      1、首先要實現數據本地化,需要將遠程節點上的map輸出復制到本地。

      2、Merge過程,這個合并過程主要是對不同的節點上的map輸出結果進行合并。

      3、不斷的復制和合并之后,最終形成一個輸入文件。Reduce將最終的計算結果存放在HDFS上。

      針對MR2是新一代的MR的API。其主要是運行在Yarn的資源管理框架上。

      3.2 Hadoop的優勢

      Hadoop被公認為行業大數據標準開源軟件,在分布式環境下提供了海量數據的處理能力,幾乎所有主流廠商都圍繞Hadoop提供了相關開發工具、開源軟件、商業化工具和技術服務。比如谷歌、雅虎、微軟、華為、思科等等。

      3.3 Hadoop的發展之路

      2004年: 最初的版本(現在稱為HDFS和MapReduce)由Doug Cutting和Mike Cafarella開始實施,它的原型和靈感來自于Google的MapReduce和GFS是一套開源的分布式計算框架。

      2004-2006:隨著Doug Cutting加入雅虎,Hadoop項目從Nutch項目獨立出來,成為Apach基金會的頂級項目。

      2006-至今:Hadoop經過七年積累融入了R語言、Hive、Pig、Zookeeper、Cassandra、Chukwa、Sqoop等一系列數據庫及工具。最終從一個科學項目發展成為一個成熟的主流商業應用。這期間一系列Hadoop商業化的軟件公司出現了。2015年華為在開源技術的基礎上發布Fusionlnsight企業級大數據平臺,標志著華為正式進軍大數據領域。

      3.4 Hadoop的架構

      Hadoop的架構主要分為系統管理層、數據源層、存儲層、處理層和業務應用層。

      數據源層:其中數據源可以是結構化、非結構化和半結構化的數據。

      存儲層:HDFS用作數據存儲。

      處理層:YARN平臺用于數據處理,處理層包括MapReduce、Hive、HBase、Storm等各種組件。

      業務應用層:業務應用層主要包括數據挖掘、統計和分析工具。

      系統管理層:系統管理層包括配置部署、監控報警、性能容量、分布式協調、高可用、工作流引擎等模塊

      3.4 Hadoop的項目組件

      3.5 Hadoop的特性

      所有組件中最著名的是HDFS和MapReduce。而Hadoop作為一套能以可靠、高效、可伸縮的方式對大量數據進行分布式處理的軟件框架具有以下幾個方面特性:

      高可靠性:因為Hadoop假設計算元素和存儲會出現故障,因為它維護多個工作數據副本,在出現故障時可以對失敗的節點重新分布處理。

      高擴展性:在集群間分配任務數據,可方便的擴展數以千計的節點。

      高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任務處理速度。

      高容錯:自動保存多份副本數據,并且能夠自動將失敗的任務重新分配。

      低成本:Hadoop通過普通廉價的機器組成服務器集群來分發以及處理數據,以至于成本很低。

      支持多種編程語言:支持R語言,Java等多種編程語言

      4.大數據的價值和應用

      4.1 大數據的影響

      大數據完全顛覆了傳統的思維方式主要體現在以下三個方面:

      全樣和非抽樣:大數據實現全量數據分析

      效率和非精確:大數據實現高效實時的數據分析

      相關和非因果:大數據分析偏向于分析數據或現象的關聯性

      數據決策逐漸成為一種新的決策方式,大數據應用有力促進了信息技術與各行業的深度融合,大數據開發大大推動了新技術和新應用的不斷涌現。

      大數據的興起使得數據科學家成為熱門職業。

      大數據的興起將在很大程度上改變我國高校信息技術相關專業的現有教學和科研體制。

      4.2 大數據的應用

      大數據的應用主要涉及的領域有:運營商領域、公共事業領域、金融領域、教育領域、零售領域、政府公共安全領域。

      DOCOMO公司通過撬動大數據努力開發新的商業機會,提取公司海量客戶信息,實現了8個產業的110億美元的收入,比如:基于作物品種和天氣的作物種植和收成預測,基于客戶位置和行為信息的保險指南,為保險和汽車行業收集并分析駕駛記錄,通過實時監控汽車傳感器狀態、汽車速度、風向、風速等的創新橋梁監控系統,為旅游資源開發匯聚用戶的位置信息。

      除此之外DOCOMO公司還根據麥當勞手機用戶的消費特征和位置進行一對一營銷。比如:日本的麥當勞的手機網站擁有超過2600萬會員,每五個日本人口中就有一個是麥當勞移動網站的會員。

      這些龐大的用戶群形成了海量購買的用戶數據,DOCOMO通過手機錢包、讀寫裝置及后臺的CRM系統,成功實現了對大量顧客購買記錄的積累和分析處理,從而根據客戶各自的消費特征,推出一對一營銷的新型優惠卷。

      以上就是大數據在運營商領域的運用。

      谷歌流感趨勢圖,通過跟蹤搜索詞相關數據來判斷全美地區的流感情況,以預防流感蔓延。

      以上就是大數據在公共事業領域的運用。

      在金融領域大數據的運用也非常廣泛,下面是金融領域的幾個案例。

      倫敦德溫特資本市場,公司首席執行官保羅霍延每天的工作之一,就是利用電腦程序分析全球3.4億微博賬戶的留言,進而判斷民眾情緒,再以1-50分進行打分,根據打分結果,霍延再決定如何處理手中數以百萬美元計的股票?;粞拥呐袛嗪芎唵危绻腥怂坪醵几吲d那就買入,如果大家的焦慮情緒上升那就拋售。這一招收益效率顯著,當年第一季度霍延公司獲得了7%的收益率。

      某銀行通過小微貸和非小微貸客戶的特征收集,建立小微貸傾向預測模型,其中收集小微貸客戶信息10458個,非小微貸客戶信息12000個,然后將900萬客戶數據執行分析,挖掘出14000個客戶特征,獲取高傾向小微貸客戶列表。

      比如大數據分析被應用到美國的公共教育中,成為教學改革的重要力量,包括學習成績、入學率、輟學率、開學率等等內容的統計分析應用。

      以前,某零售企業采取的是人工蹲點的方式進行采樣分析,每個潛新址調研花費約幾萬元?,F在,這家連鎖零售企業通過大數據分析,根據用戶選擇的區域,以數據地圖的形式展示該區域的人群特征和統計報表,為選址提供依據。

      零售企業通過獲取所在區域的人流數據可以進行人流量和人群特征分析,人群來訪頻次和時段偏好分析。為綜合性購物中心、百貨、大賣場和專業的連鎖客戶提供決策輔助。

      政府公共安全和交通領域也有大數據的身影。比如:當自動預警與聯動系統監控到某個區域,異常人員超過警戒值時,監管部門通過數據分析,及時定位問題,發送問題并確認,可能是因為全體性斗毆事件引發群眾聚集圍觀,那么此時可以及時上報上級公安部門處理。大數據分析還可以實現城市人口流向監控分析。

      大數據再各行各業都發揮著不可忽視的重要作用,不僅僅是運營商領域、公共事業領域、金融領域、教育領域、零售領域、政府公共安全領域有著大數據身影。其他領域行業也離不開大數據的決策。

      5.大數據的發展趨勢

      對于大數據而言,在2011年它還屬于新興技術,2014年已經跨越炒作巔峰,2015年大數據已經跨越裂谷走向成熟。如今,50%的企業已經投資和使用大數據,50%的企業正在規劃如何利用大數據。我們看到在大數據領域的持續投資也促使了大數據逐漸步入成熟發展階段。而在2015年新技術圖中我們已經找不到大數據的身影了,代表著大數據已不再是新興技術,而已成為了主流技術。

      在國家層面:各國已經將大數據作為國家戰略提上了議程。2009年美國總統奧巴馬簽署了《透明和開放的政府》,2013年白宮推出了Data to Knowledge to Action計劃。這是美國向數字治國、數字經濟、數字城市、數字國防轉型的重要舉措。美國政府2016年5月發布《聯邦大數據研究與開發戰略計劃》。圍繞人類科學、數據共享、隱私安全等七個關鍵領域部署推進大數據建設。另外有八國集團在2015年聯合發布了《G8數據開發憲章》提出要加快推動數據開發和利用。

      我國政府對于大數據發展也極其重視。2015年3月的兩會上李克強總理明確表態,相關部門應該盡量公開非涉密的數據,以便利用這些數據更好服務社會,那么也為相關部門決策和監管服務。2017年5月28日,在2017年中國國際大數據產業博覽會上,由大數據戰略重點實驗室研究編著,社會科學文獻出版社出版的全國首部《大數據藍皮書:中國大數據發展報告NO.1》正式發布。

      從上面信息我們可以清晰的看到,全球各主要經濟體都以將數據開發作為國家戰略,促進未來經濟發展。中國在頂層設計上已經開始布局大數據產業。

      華為的認知中的大數據有以下幾點:

      華為眼中的大數據是數據:包括內部數據、外部數據、多樣化數據、海量數據。

      華為眼中的大數據是技術:分布式技術、存儲技術、分析技術、挖掘技術、實時技術。

      華為眼中的大數據是思維:定量思維、跨界思維、相關思維、實驗思維。

      除此之外大數據還需要傳統行業思維方式的轉變:要把數據收集、分析作為業務流程的重要組成部分,數據驅動業務流程優化,實現智能化和自動化,并依托數據資產實現跨界擴展。

      華為大數據戰略包括五個維度:文化維度、數據維度、技術維度、組織維度、應用維度。整個戰略從數據平臺到數據分析再到數據價值實現應用一體化。

      6.華為云大數據基本介紹

      6.1 大數據處理技術已經成為IT基礎設施

      主要產品類型

      數據倉庫:Greenplum、TeraData、Oracle、華為DWS

      通用大數據平臺:Cloudera AWS EMR、騰訊E-MapReduce,阿里E-MapReduce、華為MapReduce

      6.2 華為云大數據整體架構

      存算分離+鯤鵬,提供極致的算力和多元框架。

      6.3 MRS

      圍繞數據開發流程,構筑一站式大數據平臺。

      目標客戶

      自建大數據平臺:可平滑搬遷自建CDH、HDP、Fusionlnsight大數據平臺。

      云服務遷移:可平滑搬遷AWS EMR、Azure HD Insight、阿里E-MapReduce、騰訊彈性MapReduce

      100%兼容開源的基礎上,打磨性價比+企業級能力。

      一站式大數據平臺服務適合:只要有大量數據產生,并且客戶希望將產生的數據進行存儲、分析和價值挖掘的行業,就會有大數據市場機會。

      6.4 華為云大數據平臺優勢

      零代碼修改,助力xxxx實現車聯智能服務,數據處理效率顯著提升。

      低成本、高性能,助力xxx從AWS EMR服務華為云。

      DWS(Data Warehouse Service)是完全托管的BB級企業數據倉庫服務,易用,開放,極致性能。助力企業高效經濟高效地對海量數據進行在線分析,實現數據快速變現。已交付300+客戶。

      華為云數倉核心優勢主要體現在:性能、擴展性、可靠性、易用性、安全。

      6.5 典型使用場景與行業

      數據分析場景,搬遷Oracle/Greenplum傳統數倉

      數據倉庫的替換。

      快速、低成本的構建企業的數據平臺&BI系統,支撐決策。

      二、華為大數據解決方案介紹

      1.華為大數據解決方案介紹

      華為大數據解決方案主要有以下四個方面:華為大數據解決方案簡介、華為大數據平臺架構、華為大數據商業咨詢服務總體方案、大數據開發團隊與社區貢獻。

      1.1 大數據分析和傳統BI分析區別

      傳統BI分析:

      數據源單一

      人工分析,少量特征

      簡單模型,精確度低

      大數據分析:

      數據源多樣,覆蓋完整

      機器學習,全量特征

      分析精度高,效果好

      1.2 大數據產業驅動

      大數據產業驅動主要經歷了以下四個階段:信息業務支撐、信息管理企業、信息指導決策、信息促進創新。

      信息業務支撐主要體系在兩個方面:

      技術層面:IT基礎設施建設,簡單應用,大數據咨詢

      業務層面:數據管理改造,離線分析,關注查詢、報表

      信息管理企業主要體系在兩個方面:

      技術層面:建立大數據平臺、跨域數據整合,構建實時分析應用、及時響應業務,開始數據挖掘進行、高級數據分析

      業務層面:關注數據多樣實時性,提供多種分析,實時分析,數據挖掘,數據安全

      信息指導決策主要體系在兩個方面:

      技術層面:開放數據服務與云結合,靈活開放應用隱私保護、決策數據化數據挖掘深度集成

      業務層面:數據運營,數據即服務,分析即服務,開放數據等

      信息促進創新主要體系在兩個方面:

      技術層面:構建數字中樞,決策、運維智能化,信息交易共享

      業務層面:認知計算,深度計算

      1.3 大數據發展階段

      大數據已經從概念階段過渡到應用階段。大數據的服務也越來越多,但都離不開大數據平臺。

      華為的大數據分析平臺叫Fusioninsight,就是一個集大數據存儲、處理和分析為一體的企業級統一化平臺。Fusioninsight平臺是在開源Hadoop大數據平臺的基礎上進行功能強化具有敏捷、智慧、可信等特點。

      敏捷:主要體現在Fusioninsight是完全開放的架構,線上可以線性擴展,具有豐富的工具支持,開發運維效率高,具有強大的sql能力,業務移植更便捷。

      智慧:Fusioninsight能實現全量建模,達到深刻洞察的效果,同時自研算法能高效精準地分析數據

      可信:可信主要體現在全組件高可用、異地容災、金融等保服務,華為大開放、共贏,是最可信賴的合作伙伴

      2.華為大數據平臺架構

      2.1 華為大數據平臺架構層次

      下面這就是華為云大數據平臺架構圖,它包含了三層如下:

      Hadoop:提供了大數據處理文件,是基于社區版開源軟件Hadoop做的增強和優化,在這里我們稱為Fusioninsight HD平臺

      DataFarm:提供支撐端到端的數據洞察,構建數據到信息、到知識、再到智慧的數據供應鏈,包含了數據集成服務Porter、數據挖掘服務Miner和數據服務框架Farmer

      Manager:是一個分布式系統管理框架,管理員可以從單一登入點操控分布式集群,可以實現系統管理、數據安全管理和數據治理等

      2.2 華為大數據平臺的組件

      在華為大數據平臺下的組件功能有:

      基礎設施層:包含了標準服務器、存儲、網絡等。

      分布式存儲層:HDFS、HBase、LibrA等。

      分布式計算框架:管理組件包括YARN,功能組件包括MapReduce、Spark、Storm,上層應用組件包括開源輕度增強、開源孵化增強、開源深度增強、自研數據分析工具。

      2.3 華為大數據平臺的組件特點

      這些組件保證了華為大數據平臺功能,具有如下特點:

      百分比開源核心,支持混合負載,支持批量查詢、交互查詢、數據挖掘到流式查詢等多種場景。

      開放式存儲格式,避免了鎖定私有文件格式。此外,所有的組件格式都可以通過Manager組件提供的插件框架按需安裝。

      2.4 華為大數據平臺Fusioninsight的增強特性

      Fusioninsight的增強特性主要體現在:高可靠、高安全、高性能、以及解決方案匹配能力四個方面。

      大數據平臺的高可靠性主要體現在:

      Fusioninsight所有組件節點均實現高可用,所有組件無單點故障,其中HBase能實現1000公里以上的異地災備。

      表級集群備份、全量、增量日志備份。支持關鍵數據掉電保護。

      硬盤支持熱插拔。

      能實現對角色進行權限管理和審計

      WEBUI服務還支持單點登錄認證。對HBase的權限控制支持HBase庫、表、列族和列等不同等級。Hive還支持合法用戶之間的數據安全隔離,保障用戶數據安全,支持合法用戶之間的授權訪問,允許用戶數據交叉訪問

      Fusioninsight支持對文件系統進行加密,Hive、HBase可以對表進行字段加密,集群內部用戶信息禁止明文存儲。加密算法插件化可進行擴充,也可自行開發,并且加解密過程業務完全無感知。

      高安全性還體現在對操作系統的安全加固,通過裁剪不必要的組件,工具自動測試掃描。在業務節點、管理節點和用戶管理Portal等組件采取業務標準來實現操作系統加固,從而保證基礎設施的安全性。

      針對數據密集型行業傳統數據庫,數據倉庫的大量關聯表設計,創新地實現了CTBase方案,能夠將多個具有類似功能或者是存在關聯的,業務表聚集到一個HBase大表中,從而提升了一些關鍵場景的多表關聯查詢的性能,另外CTBase還提供了二級索引Rowkey Schema的維護管理等關鍵能力。

      Fusioninsight Manager作為Fusioninsight運維維護中心。主要功能有以下幾點:

      支持系統雙機和分布式并行處理,可在10分鐘內完成集群安裝。

      支持全自動化在線運行維護、自定義Dashboard、自動化應用開發助手。

      讓企業可以輕松管理大數據系統,提供向導式升級、回退界面操作,但升級過程異常時支持自動安全回退,也支持觀察期手工觸發安全回退,可以在6分鐘內完成Hadoop的升級

      Fusioninsight HD提供了北向接口,能實現企業現有網管系統進行集成

      支持syslog接口,接口消息可通過配置來適配現有系統,整個Hadoop集群采用統一的集中管理,未來北向接口可根據需求進行靈活擴展

      Fusioninsight HD圍繞數據的采集、分析和消費,在典型的場景如數據中心運維、日志分析、歷史數據查詢、實時事件處理、客戶特征畫像等方面形成了一系列解決方案,并跟隨客戶業務的發展不斷豐富。

      華為的Fusioninsight大數據平臺源于開源又不止于開源,在大數據平臺的高可靠、高安全、高性能、以及集群管理等方面已經邁出了一大步。

      3.華為大數據商業咨詢服務總體方案

      華為云提供了集大數據平臺、行業業務模型分析及咨詢服務為一體的大數據商業咨詢服務總體方案。

      3.1 華為大數據商業咨詢服務總體方案的四個階段

      這樣的方案從擬定到落地執行需要經歷Analysis分析、Design設計、Integration集成、Execution執行四個階段。

      其中Analysis分析階段:主要包括市場分析、行業趨勢分析、競爭分析和業界實踐分析,然后根據分析結果來界定問題、構建問題樹、確定根由進而梳理出需求和機會點。

      其中Design設計階段:大數據商業戰略設計、大數據商業模型設計、商業場景全景規劃、典型場景需求設計、場景分解和業務設計等,最終根據典型場景形成運營方案。

      其中Integration集成階段:對支撐數據源的梳理、現有標簽梳理,從而給出數據資源準備建議、大數據標簽體系建議、以及典型場景的數字建模建議,最終形成商業和網絡解決方案。

      其中Execution執行階段:主要是對商業方案和技術方案落地,形成相關的管理體系和流程制度,并由IT部門去實施執行,最終形成華為大數據商業咨詢服務的總體方案,它能幫助傳統企業設計、構建和運營大數據系統,向大數據驅動的企業進行轉型

      3.2 華為大數據商業咨詢服務總體方案的三個步驟

      具體來說華為的解決方案分以下三個步驟:

      制定長遠的戰略規劃:明確當年目標,驅動大數據系統開展頂層設計

      開展商業設計、技術設計、部署實施與數據運營這四大數據系統的支柱,讓后分成更具體的8個關鍵行動

      進行組織匹配、運作流程及人才訓練,這是大數據構建與持續運營的基礎,也是實施相關行動的前提條件

      華為提供的不僅僅是一個大數據平臺,更是一個能在企業下部署實施的大數據整體商業解決方案。

      4.大數據開發團隊與社區貢獻

      4.1 華為大數據開發團隊優勢

      華為大數據開發團隊有以下的優勢:

      把大數據應用視作生命線,比起開源Hadoop能更有效更便捷滿足顧客需求。

      有著強大掌握代碼團隊。

      4.2 華為大數據開發團隊核心能力

      華為大數據開發團隊核心能力包括以下幾點:

      定位內核級問題

      獨立完成支撐關鍵業務特性內核升級開發

      引領社區完成面向未來的內核級特性開發

      創新新社區頂級項目并得到社區生態系統認可

      4.2 華為大數據開發團隊分布情況

      華為大數據專業研發團隊也遍布全球,大數據是華為公司戰略方向之一,未來將保持上千人規模的重點投入。

      4.3 華為的社區貢獻

      華為對開源社區的貢獻度也非??捎^,華為對Hadoop,Spark等產品貢獻度穩居第一陣營,而且對開源社區的整體共享呈逐年增加的趨勢。

      華為2015年上半年對Hadoop社區貢獻如圖:

      2017年4月Apache軟件基金會宣布,華為貢獻給Apache社區的開源項目CarBonData從Apache孵化器畢業,成為正式的Apache頂級項目。

      以上足以說明華為從大數據開源社區的參與者逐漸轉變成社區的生態和引領著之一。

      CarBonData是一種大數據高效存儲格式解決方案,針對當前大數據領域,分析場景需求各異導致的存儲冗余問題,CarBonData提供了一種新的融合數據存儲方案,一份數據同時支持多種大數據場景,并與Apache社區的Hadoop,Spark等組件實現無縫集成。

      總結

      本文主要介紹的內容有:大數據是什么、華為大數據解決方案介紹。

      大數據作用主要有以下三點:

      對大數據的處理分析正成為新一代信息技術融合應用的結點。移動互聯網、物聯網、社交網絡、數字家庭、電子商務等是新一代信息技術的應用形態,這些應用不斷產生大數據。云計算為這些海量、多樣化的大數據提供存儲和運算平臺。通過對不同來源數據的管理、處理、分析與優化,將結果反饋到上述應用中,將創造出巨大的經濟和社會價值。

      大數據是信息產業持續高速增長的新引擎。面向大數據市場的新技術、新產品、新服務、新業態會不斷涌現。在硬件與集成設備領域,大數據將對芯片、存儲產業產生重要影響,還將催生一體化數據存儲處理服務器、內存計算等市場。在軟件與服務領域,大數據將引發數據快速處理分析、數據挖掘技術和軟件產品的發展。

      大數據利用將成為提高核心競爭力的關鍵因素。各行各業的決策正在從“業務驅動” 轉變“數據驅動”。

      綜上所述,社會發展離開不了大數據。人們的出行越來越離不開大數據的協助,運用電子地圖,初來乍到的游客可以在生疏的城市自由行走;繁忙一天的上班族可以查詢最快回家的交通方法;出租車司機經過語音導航,知曉前方路程狀況,防止堵車或超速違章。這些都是大數據在生活中的體現。

      本文整理自華為云社區【內容共創】活動第15期。

      查看活動詳情:https://bbs.huaweicloud.com/blogs/345822

      相關任務詳情:任務15.華為云數據庫入門與應用

      上云必讀 大數據

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:如何設置日期為8位斜杠(八位日期轉換為斜杠)
      下一篇:Python3連接PostgreSQL(10.5)數據庫
      相關文章
      亚洲国产成人久久综合碰碰动漫3d | 亚洲成A∨人片在线观看不卡| 亚洲av产在线精品亚洲第一站| 麻豆亚洲AV永久无码精品久久| 久久国产精品亚洲综合| 中文字幕精品亚洲无线码二区| 国产天堂亚洲精品| 亚洲av综合av一区二区三区| 中文字幕乱码亚洲精品一区| 亚洲国产91在线| 亚洲国产精品乱码一区二区| 国产综合激情在线亚洲第一页| 亚洲成在人线aⅴ免费毛片| 亚洲色欲色欱wwW在线| 亚洲欧美成人综合久久久| 亚洲熟妇无码av另类vr影视| 亚洲色大网站WWW永久网站| 亚洲人成人伊人成综合网无码| 亚洲日韩精品A∨片无码加勒比| 亚洲一本一道一区二区三区| 亚洲日本va一区二区三区| 亚洲av综合av一区二区三区| 国产精品久久久久久亚洲小说| 亚洲成av人片一区二区三区| 亚洲一级黄色视频| 亚洲色偷拍另类无码专区| 亚洲精品午夜无码专区| 亚洲av福利无码无一区二区| 亚洲视频在线观看网站| 亚洲婷婷综合色高清在线| 99999久久久久久亚洲| 亚洲gay片在线gv网站| 国产黄色一级毛片亚洲黄片大全| 国产偷国产偷亚洲高清日韩| 国产AV无码专区亚洲Av| 久久久久亚洲精品日久生情 | 亚洲av永久中文无码精品综合| 337P日本欧洲亚洲大胆精品| 亚洲精品无码久久不卡| 亚洲精品国产精品乱码不99| 亚洲成a人片在线观看中文动漫|