大數(shù)據(jù)是什么?【我們都是華為云專家】

      網(wǎng)友投稿 813 2025-03-31

      目錄

      1.大數(shù)據(jù)產(chǎn)生與發(fā)展

      2.大數(shù)據(jù)基本概念

      3.Hadoop生態(tài)系統(tǒng)簡介

      4.大數(shù)據(jù)價值與應(yīng)用

      5.大數(shù)據(jù)發(fā)展趨勢

      大數(shù)據(jù)產(chǎn)生與發(fā)展

      大數(shù)據(jù)是什么內(nèi)容將包括大數(shù)據(jù)的產(chǎn)生與發(fā)展、大數(shù)據(jù)的基本概念,還包括生態(tài)系統(tǒng)的簡介、大數(shù)據(jù)的價值應(yīng)用、大數(shù)據(jù)的發(fā)展趨勢五個部分。首先,我們來追溯一下大數(shù)據(jù)的產(chǎn)生與發(fā)展。

      大數(shù)據(jù)的產(chǎn)生和發(fā)展主要經(jīng)歷了三個階段

      第一個階段我們稱為是萌芽期。自上世紀(jì)90年代至本世紀(jì)初,隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識的管理技術(shù)也開始得到應(yīng)用,比如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等等。

      第二階段我們稱為是成熟期。本世紀(jì)的前十年web2.0應(yīng)用的迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)的大量產(chǎn)生使得傳統(tǒng)的處理方法已經(jīng)難以應(yīng)對,而大數(shù)據(jù)技術(shù)卻快速的突破,而大數(shù)據(jù)的解決方案也逐漸的走向成熟。大數(shù)據(jù)在成熟期形成了并行計算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和Mapreduce等大數(shù)據(jù)技術(shù)也受到了追捧,開源技術(shù)hadoop平臺也開始大行其道。

      而第三個階段我們稱為是大規(guī)模的應(yīng)用期。2010年以后呢,大數(shù)據(jù)開始廣泛用到各行各業(yè),人們開始用數(shù)據(jù)來驅(qū)動決策,社會的信息化,智能化程度也大幅的提高,所以大數(shù)據(jù)的發(fā)展歷經(jīng)萌芽,成熟,再到大規(guī)模應(yīng)用三個階段。

      大數(shù)據(jù)基本概念

      我們了解了大數(shù)據(jù)的發(fā)展歷程。那究竟什么是大數(shù)據(jù)呢?關(guān)于大數(shù)據(jù)的概念眾說紛紜,甚至已經(jīng)成為了一個商業(yè)問題,并且在商業(yè)出版社被大量的報道。

      比如福布斯的雜志報道稱,大數(shù)據(jù)已經(jīng)抵達(dá)seton醫(yī)療保健家庭,通過使用這個分析工具,每年超過兩百萬的復(fù)雜病例患者得到了幫助。紐約時報指出,數(shù)據(jù)已經(jīng)成為一類新的經(jīng)濟資產(chǎn),就像貨幣或者是黃金一樣。而cnbc呢也曾這樣比喻,數(shù)據(jù)就像新型石油一樣,未挖掘的沒有什么價值,但經(jīng)過加工、提煉以后,將會極大的助力世界發(fā)展。

      那么我們究竟如何去定義大數(shù)據(jù)呢?

      其實呢到目前為止,大數(shù)據(jù)還沒有一個明確的、統(tǒng)一的定義,不同組織、機構(gòu)對大數(shù)據(jù)有著不同的描述。

      麥肯錫認(rèn)為大數(shù)據(jù)是指大小超出了典型數(shù)據(jù)庫軟件的采集、存儲、管理和分析等能力的數(shù)據(jù)集。他認(rèn)為大數(shù)據(jù)的一般范圍是從幾個TB到幾個PB,而維基百科給出的定義是無法在一定時間內(nèi)使用常規(guī)的軟件工具對其內(nèi)容進行抓取、管理和處理的大量而復(fù)雜的數(shù)據(jù)集合。美國國家標(biāo)準(zhǔn)技術(shù)研究院給出的定義是數(shù)量大、獲取速度快,或者是形態(tài)多樣的數(shù)據(jù),難以使用傳統(tǒng)的關(guān)系型數(shù)據(jù)分析方法進行有效的分析,或者需要大規(guī)模的水平擴展才能高效處理的這種數(shù)據(jù)形態(tài)。

      而Gartaner公司認(rèn)為大數(shù)據(jù)是一種體量大、快速和多樣化的信息資產(chǎn),需要使用高效率和創(chuàng)新型的信息技術(shù)加以處理,來提高發(fā)現(xiàn)、洞察、做出決策和優(yōu)化流程的能力。可見對大數(shù)據(jù)的定義還沒有統(tǒng)一的定論。但不論哪一種描述,關(guān)于大數(shù)據(jù)的思維特征卻是一致公認(rèn)的。

      那什么才是大數(shù)據(jù)的思維特征呢?

      我們來一起認(rèn)識一下。首先第一個v指的是value容量

      主要指非結(jié)構(gòu)化數(shù)據(jù)的規(guī)模和增長速度。因為非結(jié)構(gòu)化數(shù)據(jù)占數(shù)據(jù)總量的百分之八十到百分之九十,同時呢也比結(jié)構(gòu)化數(shù)據(jù)增長快十倍到五十倍,并且數(shù)據(jù)量是傳統(tǒng)數(shù)據(jù)庫的。十倍到五十倍。

      第二個v指的是variety。多元化主要指大數(shù)據(jù)的異構(gòu)和多樣性。

      數(shù)據(jù)有很多不同的形式,比如文本、圖像、視頻、機器、數(shù)據(jù)等等,這些數(shù)據(jù)呢大多是無模式或者是模式不明顯。

      第三個位置的是value價值,主要體現(xiàn)在大量的不相關(guān)信息,價值密度低,需要通過深度復(fù)雜分析才可以對未來的趨勢和模式進行預(yù)測。

      第四個位置的是velocity,高效主要體現(xiàn)在實時分析,實時呈現(xiàn)分析結(jié)果。

      那么接下來我們詳細(xì)分析一下四維特征。第一個為value數(shù)據(jù)的體量巨大。主要體現(xiàn)在從TB級別到PB級別,截至目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是兩百個PB。那么當(dāng)前典型的個人計算機硬盤的容量為TB量級,而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近到EB級別.

      這是什么概念呢?我們來看一下容量單位的一些形象示例。比如一個PB等于1024的TB,相當(dāng)于百分之五十的全美學(xué)術(shù)研究圖書館藏書的內(nèi)容總和,一個EB等于1024個PB,那五個硬幣就相當(dāng)于至今全世界人類所講過的所有話語。一個ZB等于1024個EB,如同全世界海灘上的沙子的數(shù)量總和。一個YB等于1024個ZB相當(dāng)于7000位人類體內(nèi)的細(xì)胞數(shù)的總和。可見呢大數(shù)據(jù)的數(shù)據(jù)量確實是海量的。

      第二個,variety(多樣化)。其實物聯(lián)網(wǎng)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、企業(yè)、行業(yè)內(nèi)的數(shù)據(jù)呢都是大數(shù)據(jù)的數(shù)據(jù)組成部分。那么大數(shù)據(jù)的多樣性主要體現(xiàn)在:

      第一、數(shù)據(jù)的來源多,企業(yè)內(nèi)部多個應(yīng)用系統(tǒng)的數(shù)據(jù)。互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的興起帶動的微博、社交、網(wǎng)站、傳感器等多種數(shù)據(jù)來源。

      第二、數(shù)據(jù)的種類多。保存在關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)其實只占少數(shù),而百分之八十到百分之九十的數(shù)據(jù)是諸如圖片、音頻、視頻、模型、連接、信息、文檔等等一些非結(jié)構(gòu)化和。半結(jié)構(gòu)化數(shù)據(jù)。那么相對以往便于存儲的、以文本為主的結(jié)構(gòu)化數(shù)據(jù)而言呢,這些非結(jié)構(gòu)化數(shù)據(jù)越來越多,同時這些多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力也提出了更高的要求。

      第三、關(guān)聯(lián)性強,數(shù)據(jù)之間的頻繁交互。比如游客在旅途中上傳的圖片和日志,其實呢與游客的位置和行程等信息呢有很強的關(guān)聯(lián)性,因此大數(shù)據(jù)不僅體現(xiàn)在量的巨大,還體現(xiàn)在種類的豐富多樣。

      第三個value價值,對于大數(shù)據(jù)本身而言,它的價值密度低,這是它的典型特征。而如何去挖掘大數(shù)據(jù)的潛藏價值,像沙粒淘金一樣,從海量數(shù)據(jù)中挖掘稀有并且珍貴的信息才是大數(shù)據(jù)的核心。

      那么第四個v指的是什么呢?第四個velocity(高效)。在大數(shù)據(jù)領(lǐng)域,能否實現(xiàn)實時的數(shù)據(jù)流處理,是區(qū)別大數(shù)據(jù)引用和傳統(tǒng)數(shù)據(jù)倉庫技術(shù)--BI的關(guān)鍵差別之一。那比如我們以一秒為臨界點,對于大數(shù)據(jù)應(yīng)用而言,要求必須在一秒內(nèi)形成答案,否則處理結(jié)果就是過時或者是無效的。

      根據(jù)IDC的數(shù)字宇宙報告,預(yù)計到二零二零年,全球數(shù)據(jù)的使用量將達(dá)到三十五點二個ZB。那么在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。以上內(nèi)容就是大數(shù)據(jù)的四維特征。

      hadoop生態(tài)系統(tǒng)簡介

      面對海量又種類繁多、價值密度低、又需要高效交互的數(shù)據(jù)需求,如何存儲、快速處理,以及從海量數(shù)據(jù)中提取出高含金量的數(shù)據(jù),是大數(shù)據(jù)分析最核心的內(nèi)容之一。

      而hadoop系統(tǒng)就是這樣一套用于大數(shù)據(jù)處理的分布式架構(gòu)。好,那么接下來我們來學(xué)習(xí)一下hadoop生態(tài)系統(tǒng)簡介。那什么是hadoop呢?hadoop是Apache軟件基金會旗下的一個開源的分布式計算平臺,為用戶提供了系統(tǒng)底層、細(xì)節(jié)透明的分布式技術(shù)架構(gòu),它是基于java語言開發(fā)的,具有很好的跨平臺特性,并且可以部署在廉價的計算機集群中,而hadoop核心是分布式文件系統(tǒng)hdfs和mapreduce。

      同時hadoop也被公認(rèn)為是行業(yè)內(nèi)的大數(shù)據(jù)的標(biāo)準(zhǔn)開源軟件,在分布式系統(tǒng)下提供了海量數(shù)據(jù)的處理能力,幾乎所有的主流廠商都圍繞hadoop提供了相關(guān)的開發(fā)工具、開源軟件、商業(yè)化工具和技術(shù)服務(wù),比如谷歌、雅虎、微軟、華為和思科等等。那么hadoop是什么時候誕生的呢?其實hadoop是2004年由Doug cutting提出的,它的原型和靈感來源于谷歌的mapreduce和gfs,它是一套開源的分布式計算框架。后來2006年隨著到cutting加入了雅虎,那么hadoop項目也從Nutch項目中獨立出。來成為了Apache基金會資助的頂級項目。

      隨后hadoop經(jīng)過七年積累,融入了R語言、Hive、pig、zookeeper、cassandra、Chukwa、Sqoop等一系列的數(shù)據(jù)庫及工具,最終從一個科學(xué)項目逐漸地發(fā)展成為一個成熟的主流商業(yè)應(yīng)用。

      這期間一系列將hadoop商業(yè)化的軟件公司出現(xiàn)了。2015年,華為在開源技術(shù)基礎(chǔ)上發(fā)布了Fusionlnsight企業(yè)級的大數(shù)據(jù)平臺,標(biāo)志著華為正式進軍大數(shù)據(jù)領(lǐng)域。我們了解了hadoop的發(fā)展歷史。

      那么hadoop的架構(gòu)是怎么樣的呢?其實hadoop的架構(gòu)主要分為系統(tǒng)管理層、數(shù)據(jù)源層、存儲層、處理層和業(yè)務(wù)應(yīng)用層。那其中數(shù)據(jù)來源可以是結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),hdfs用作數(shù)據(jù)存儲,一、二平臺用于數(shù)據(jù)處理。那么處理層還包括了MapReduce、Hive、HBase、storm等各種組件。業(yè)務(wù)應(yīng)用層面主要包括數(shù)據(jù)挖掘、統(tǒng)計和分析工具。系統(tǒng)管理層包括了配置、部署、監(jiān)控、報警、性能容量、分布式協(xié)調(diào)、高可用、工作流、引擎等等模塊,而主要用于維持系統(tǒng)的正常運行。好,以上就是hadoop的架構(gòu)。

      hadoop里包含了許多項目,比如HDFS是hadoop的分布式文件系統(tǒng),MapReduce是分布式并行編程模型。YARN是資源管理和調(diào)度器。TeZ運行在YARN之上的下一代hadoop查詢處理框架。Hive是hadoop上的數(shù)據(jù)倉庫,HBase是hadoop上的非關(guān)系型分布式數(shù)據(jù)庫。pig是基于hadoop的大規(guī)模數(shù)據(jù)分析平臺,提供類似于sql的查詢語言Pig Latin。Sqoop用于hadoop與傳統(tǒng)數(shù)據(jù)庫之間進行數(shù)據(jù)傳遞。Oozie是hadoop上的工作流管理系統(tǒng),zookeeper提供了分布式協(xié)調(diào)一致性服務(wù),storm是流計算框架,F(xiàn)lume是一個高可用、高可靠、分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。以上呢就是Hadoop系統(tǒng)的主要項目組件。

      其實在眾多的項目組件中,最著名的是HDFS和MapReduce。

      而Hadoop作為一套能以可靠、高效、可伸縮的方式對大量數(shù)據(jù)進行分布式處理的軟件框架,它具有以下幾個方面的特性,比如通過多副本機制保證數(shù)據(jù)的高容錯、高可靠性,實現(xiàn)實時數(shù)據(jù)處理、分析的高效性,可以很容易進行數(shù)據(jù)節(jié)點擴展,從而實現(xiàn)容量擴展的高擴展性,支持通用X86服務(wù)器及其他商用服務(wù)器的低成本的特征。那么同時Hadoop也支持多種編程語言。以上就是hadoop系統(tǒng)的簡介。

      大數(shù)據(jù)的價值與應(yīng)用

      對于大數(shù)據(jù)而言,它的價值以及應(yīng)用領(lǐng)域體現(xiàn)在哪里呢?那么接下來我們繼續(xù)學(xué)習(xí)大數(shù)據(jù)的價值與應(yīng)用。首先我們來看一下大數(shù)據(jù)的影響。

      在思維方式方面,大數(shù)據(jù)完全顛覆了傳統(tǒng)的思維方式,主要體現(xiàn)在三個方面:

      第一、全樣而非抽樣,大數(shù)據(jù)實現(xiàn)的是全量的數(shù)據(jù)分析;

      第二、效率而非精確大數(shù)據(jù),實現(xiàn)高效實施的數(shù)據(jù)分析;

      第三、相關(guān)而非因果,大數(shù)據(jù)分析偏向于分析數(shù)據(jù)或者是現(xiàn)象的關(guān)聯(lián)性。

      在社會發(fā)展方面,大數(shù)據(jù)決策逐漸成為了一種新的決策方式,大數(shù)據(jù)應(yīng)用有利的促進了信息技術(shù)和各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大推動了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)。

      在就業(yè)市場方面,大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)。而在人才培養(yǎng)方面,大數(shù)據(jù)的興起將在很大程度上改變中國高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制。

      既然大數(shù)據(jù)對人類的生活產(chǎn)生了如此巨大的影響,那么大數(shù)據(jù)主要應(yīng)用在哪些領(lǐng)域呢?

      在運營商領(lǐng)域,docomo公司通過撬動大數(shù)據(jù),努力開發(fā)新的商業(yè)機會,提取公司海量的客戶信息,實現(xiàn)了8個產(chǎn)業(yè)110億美元的收入。比如基于作物品種和天氣的作物種植和收成預(yù)測、基于客戶位置和行為信息的保險指南,為保險和汽車行業(yè)收集并分析駕駛記錄,通過實時監(jiān)控傳感器狀態(tài)、汽車速度、風(fēng)向、風(fēng)速等的創(chuàng)新橋梁監(jiān)控系統(tǒng),為旅游資源開發(fā)匯聚用戶的位置信息。

      除此之外,docomo公司還根據(jù)麥當(dāng)勞手機用戶的消費特征和位置進行一對一的營銷。比如日本麥當(dāng)勞的手機網(wǎng)站擁有超過2600萬的會員,而每五個日本人中就有一個是麥當(dāng)勞移動網(wǎng)站的會員。這些龐大的用戶群形成了海量的購買記錄數(shù)據(jù)。docomo通過手機、錢包、讀寫裝置以及后臺的CRM系統(tǒng),成功實現(xiàn)了對大量顧客購買記錄數(shù)據(jù)的積累和分析、處理,從而根據(jù)客戶各自的消費特征推出了一對一營銷的新型優(yōu)惠券。以上就是大數(shù)據(jù)在運營商領(lǐng)域的應(yīng)用。

      在公共事業(yè)方面,谷歌的流感趨勢圖通過跟蹤搜索詞相關(guān)數(shù)據(jù)來判斷全美地區(qū)的流感情況,政府和醫(yī)療機構(gòu)可以根據(jù)相應(yīng)的分析情況做出相應(yīng)的對策,以預(yù)防流感蔓延。這是大數(shù)據(jù)在公共事業(yè)方面的應(yīng)用。

      在金融行業(yè),大數(shù)據(jù)的應(yīng)用也非常廣泛。比如倫敦德溫特資本市場公司首席執(zhí)行官保羅霍廷,每天的工作之一就是利用電腦程序分析全球3.4億微博賬戶的流言,進而判斷民眾情緒,再以1到50進行打分。根據(jù)打分結(jié)果,霍廷再決定如何處理手中數(shù)以百萬計的股票。霍廷的判斷原則很簡單。如果所有人似乎都高興,那就買入,如果說大家的焦慮情緒上升,那就拋售。這一招收效顯著,當(dāng)年第一季度,霍廷的公司就獲得了百分之七的收益率。

      再比如某銀行通過將小微貸客戶和非小微貸客戶的特征收集,建立小微貸傾向預(yù)測模型,其中收集小微貸客戶信息10458個,非小微的客戶信息1200個,然后將900客戶數(shù)據(jù)執(zhí)行分析,挖掘出一萬四千個客戶特征,從而來獲取高傾向小微帶客戶列表,并將前一萬名高傾向小微貸客戶列表分發(fā)給各分行業(yè)務(wù)部門進行重點營銷,最后的執(zhí)行效果顯著,業(yè)務(wù)的轉(zhuǎn)化率比原有的專業(yè)系統(tǒng)提升了二十五倍。

      除了金融行業(yè)以外,還有教育行業(yè),比如大數(shù)據(jù)應(yīng)用分析被應(yīng)用到美國的公共教育中,成為教學(xué)改革的重要力量,包括了學(xué)習(xí)成績、入學(xué)率、輟學(xué)率、升學(xué)率等等一些內(nèi)容的統(tǒng)計、分析和應(yīng)用。

      在零售行業(yè)方面,以前某連鎖零售企業(yè)采取的是人工蹲點的方式進行采樣分析,每個潛在新址的店員花費大約幾萬元。而現(xiàn)在這家連鎖零售企業(yè)通過大數(shù)據(jù)分析,根據(jù)用戶選擇的區(qū)域,以數(shù)據(jù)地圖的形式展示該區(qū)的人群特征和統(tǒng)計報表,為選址提供了依據(jù)。此外,零售業(yè)通過獲取所在區(qū)域的人流數(shù)據(jù),可以進行人流量和人群特征分析、人群的來訪頻次和時段的偏好分析。為綜合性購物中心、百貨、大賣場和專業(yè)的連鎖客戶提供決策輔助。

      此外,政府、公共安全和交通領(lǐng)域也有大數(shù)據(jù)的身影。比如當(dāng)自動預(yù)警與聯(lián)動系統(tǒng)監(jiān)控到富華大廈右側(cè)異常人群超過警戒值時,監(jiān)管部門通過數(shù)據(jù)分析,及時的定位問題、發(fā)送問題,并確認(rèn)可能是因為群體性的斗毆事件引發(fā)了群眾聚集、圍觀,那么此時呢我們可以及時的上報上級的公安部門進行處理。大數(shù)據(jù)分析還可以實現(xiàn)城市人口的流向監(jiān)測、分析。由上面所舉的例子可見,大數(shù)據(jù)分析在各行各業(yè)都發(fā)揮著不可忽視的重要作用。

      大數(shù)據(jù)的發(fā)展趨勢

      大數(shù)據(jù)的發(fā)展有什么趨勢呢?順著這個趨勢,大數(shù)據(jù)的未來又會走向何方呢?對大數(shù)據(jù)而言,在2011年它還屬于新興技術(shù),2014年已經(jīng)跨越炒作的頂峰,2015年大數(shù)據(jù)已經(jīng)跨越肋骨走向成熟。

      如今百分之五十的企業(yè)已經(jīng)投資和使用大數(shù)據(jù),而百分之三十三的企業(yè)正在規(guī)劃如何利用大數(shù)據(jù)。我們看到在大數(shù)據(jù)領(lǐng)域的持續(xù)投資也促使了大數(shù)據(jù)逐漸的步入到了成熟、發(fā)展階段。而在二零一五年的新技術(shù)圖中,我們已經(jīng)找不到了大數(shù)據(jù)的身影,代表著大數(shù)據(jù)不再是新興技術(shù),而已經(jīng)成為了一種主流技術(shù)。

      而在國家層面上,各國已經(jīng)將大數(shù)據(jù)作為國家戰(zhàn)略提上了議程。2009年,美國總統(tǒng)奧巴馬簽署了《透明和開放的政府》。2013年,白宮推出了Data to Knowledge to action計劃,這是美國向數(shù)字治國、數(shù)字經(jīng)濟、數(shù)字城市、數(shù)字國防轉(zhuǎn)型的一個重要舉措。美國政府2016年5月發(fā)布了《聯(lián)邦大數(shù)據(jù)研究和開發(fā)戰(zhàn)略計劃》,圍繞了人類、科學(xué)、數(shù)據(jù)共享、隱私、安全等七個關(guān)鍵領(lǐng)域,部署推進大數(shù)據(jù)的建設(shè)。另外有八國集團在2013年聯(lián)合發(fā)布了G八開放數(shù)據(jù)憲章,提出要加快推動數(shù)據(jù)開放和利用。

      我國政府對于大數(shù)據(jù)的發(fā)展也極其重視,2015年3月的兩會上,李克強總理明確表態(tài),政府應(yīng)該盡量的公開非涉密的數(shù)據(jù),以便利用這些數(shù)據(jù)更好的服務(wù)社會,那么也為政府決策和監(jiān)管服務(wù)。2017年5月28日,在2017中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,由大數(shù)據(jù)戰(zhàn)略重點實驗室研究、編著、社會科學(xué)文獻出版社出版的全國首部《大數(shù)據(jù)藍(lán)皮書中國大數(shù)據(jù)發(fā)展報告No.1》正式發(fā)布。

      從上面的信息我們可以清晰地看到,全球各主要的經(jīng)濟體都已經(jīng)將數(shù)據(jù)開放作為國家戰(zhàn)略,促進未來的經(jīng)濟發(fā)展。中國在頂層設(shè)計上已經(jīng)開始布局大數(shù)據(jù)產(chǎn)業(yè)。

      那么在華為的認(rèn)知中,什么是大數(shù)據(jù)呢?

      華為眼中的大數(shù)據(jù)是數(shù)據(jù),包括了內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)、多樣化數(shù)據(jù)、海量數(shù)據(jù)。技術(shù),包括了分布式技術(shù)、存儲技術(shù)、分析技術(shù)、挖掘技術(shù)和實時技術(shù),更是一種思維,包括了定量思維、跨界思維、相關(guān)思維和實驗思維。除此之外,大數(shù)據(jù)還需要傳統(tǒng)行業(yè)思維方式的轉(zhuǎn)變,要把數(shù)據(jù)采集、分析作為業(yè)務(wù)流程的重要組成部分,數(shù)據(jù)驅(qū)動業(yè)務(wù)流程優(yōu)化,實現(xiàn)智能化和自動化,并依托數(shù)據(jù)資產(chǎn)實現(xiàn)跨界拓展。

      華為的大數(shù)據(jù)戰(zhàn)略包括了五個維度,

      文化維度:自上而下實現(xiàn)決策的數(shù)據(jù)化

      數(shù)據(jù)維度:讓數(shù)據(jù)在應(yīng)用中持續(xù)流動,貫穿沉淀。

      技術(shù)維度:建立數(shù)據(jù)的統(tǒng)一技術(shù)大平臺,

      組織維度:角色清晰、價格明確。

      應(yīng)用維度:服務(wù)用戶、驅(qū)動業(yè)務(wù)。

      整個戰(zhàn)略從數(shù)據(jù)平臺到數(shù)據(jù)分析,再到數(shù)據(jù)價值,實現(xiàn)應(yīng)用一體化。

      華為云大數(shù)據(jù)基本介紹

      現(xiàn)在我們基本上可以看到整個大在整個IT基礎(chǔ)設(shè)施里面呢,大數(shù)據(jù)已經(jīng)成為了一種基礎(chǔ)的IT基礎(chǔ)設(shè)施了。這個不僅從計算、存儲網(wǎng)絡(luò)可能成為it基礎(chǔ)設(shè)施,大數(shù)據(jù)技術(shù),包括我們所我們認(rèn)為的數(shù)據(jù)倉庫這種技術(shù)在各行各業(yè)應(yīng)該都成成為了我們的這個ICT的基礎(chǔ)設(shè)施。

      從我們的這個技術(shù)發(fā)展的趨勢里面我們就可以發(fā)現(xiàn),可能從上個世紀(jì)八十年代開始,取源于數(shù)據(jù)庫和數(shù)據(jù)倉庫,特別是數(shù)據(jù)倉庫已經(jīng)變得非常成熟了,而且數(shù)據(jù)倉庫一直成熟了,到到今天為止可能快四十年了,應(yīng)用越廣,在各個領(lǐng)域、各個行當(dāng),它應(yīng)該來說是不區(qū)分任何具體的行業(yè),像什么政府也好、金融也好、公安、互聯(lián)網(wǎng)等等等等,因為作為一家公司或作為一個組織,你可能肯定要說我每個月要出一次賬單、出一次財務(wù)報表、每年也要出類似的東西,或者說每個季度也出類似的東西。那么這種出這個賬單、財務(wù)報表,或者進行一些清算、結(jié)算等等這些操作,后臺使用的技術(shù)應(yīng)該來說都是這種數(shù)據(jù)倉庫。而且在各行各業(yè)的ERP系統(tǒng)里面,或者說其他的系統(tǒng)里面,這個數(shù)據(jù)倉庫用的非常多或者非常廣的。當(dāng)然到了新的世紀(jì),隨著這個互聯(lián)網(wǎng)技術(shù)進一步的發(fā)展,可能還在我們前面所定義的這種清算領(lǐng)域、結(jié)算領(lǐng)域范圍的重要作用。當(dāng)然在一些其他領(lǐng)域,比如說我們剛剛這個這個文字識別或者圖像識別領(lǐng)域,那些數(shù)據(jù)可能都不再是那些結(jié)構(gòu)化的數(shù)據(jù),是由于數(shù)據(jù)庫里面產(chǎn)生的非常干凈的數(shù)據(jù),都是一些文字或者是一些接送的字符串,那么這種情況下可能不再是數(shù)據(jù)倉庫里面的這種,因此就產(chǎn)生了這種大數(shù)據(jù)的指數(shù)。

      發(fā)展到今天來說,我們可以看到大數(shù)據(jù)的技術(shù)應(yīng)該發(fā)展得越來越成熟、越來越完善。當(dāng)然現(xiàn)在華為云在這個做大數(shù)據(jù)這一塊,可能主打的就是我們所說我們剛才所提到的基于存算分離加鯤鵬這個完整的解決方案,為我們的用戶、為我們的客戶提供穩(wěn)定的、高性價比的這種大數(shù)據(jù)服務(wù)。

      我們?nèi)A為云的大數(shù)據(jù)整體架構(gòu)可能總結(jié)現(xiàn)在可能就是這個存算分離加鯤鵬,總結(jié)一句話就是這個存算分離加鯤鵬,它代表什么意思呢?

      第一就是我們所有的底層的算力,或者我們所有的芯片是可以支持多種的,一種典型的可能就是這種X86比較傳統(tǒng)的,大家可能都在X86的這種芯片上來執(zhí)行我們的大數(shù)據(jù)程序,或者來進行我們的進行我們的大數(shù)據(jù)運算。

      同時我們可能提供了第二種選擇,這種選擇可能會更加高效,同時更加高性價比,就是我們的鯤鵬生態(tài),我們基于我們這種鯤鵬芯片的這種大數(shù)據(jù)服務(wù),可能相比這種傳統(tǒng)的及X86的這種大數(shù)據(jù)服務(wù),在性能上面,我們的價格可能會低個百分之三十,現(xiàn)在華為的所有的大數(shù)據(jù)產(chǎn)品,包括我們的什么大數(shù)據(jù)平臺,或者我們的企業(yè)級的數(shù)據(jù)倉庫,都是可以在我們鯤鵬上來良好的、運來完整的或者良好來進行運行的。這樣從芯片本身,我們可能為我們的客戶會帶來不小的這種性價比的收益。

      第二點就是我們的大數(shù)據(jù)平臺或者我們的大數(shù)據(jù)服務(wù)。相比以往的傳統(tǒng)企業(yè)級的大數(shù)據(jù)平臺,我們主推的可能這種存算分離的這種方案,就是我們的計算公式和結(jié)構(gòu)的這種計算存儲結(jié)構(gòu)可能帶來的好處就是我相信大部分的用戶,他們數(shù)據(jù)的增長會遠(yuǎn)遠(yuǎn)大于這種計算能力的增長。

      我們可能每天要做的要出了報表,或者每個月要出了月報表、月度的清算或者月度的結(jié)算,可能大家這些這些運算都是固定的,那但是我的數(shù)據(jù)會實現(xiàn)哪一些會累積?一年、兩年、三年、五年、十年,那么我們的數(shù)據(jù)會逐步逐步的增大。基于這種情況,我們提供了這種存儲跟計算結(jié)果,或者存儲跟計算分離的這種架構(gòu),這很完美的契合我們我們剛才所說的這種情況,就是數(shù)據(jù)會執(zhí)行累積,但是計算比較固定,或者說反過來說,如果計算會持續(xù)增加,但是數(shù)據(jù)比較固定也是非常適合這種情況的。我們只要把這兩個東西把物理層面上把它給解開,那么我們需要計算的時候就會使用更多的計算資源,或者需要存儲的時候就使用更多的存儲資源。

      大數(shù)據(jù)是什么?【我們都是華為云專家】

      避免以往一種情況,就是我不得不因為我的存儲量的增加要買服務(wù)器,買服務(wù)器的時候可能是芯片、cpu、內(nèi)存、磁盤都可以一起買。我們現(xiàn)在的時候,我們現(xiàn)在在華為云的這種情況,就是我存儲增加的時候,我只是買存儲就可以了,我計算增加的時候只是買計算就可以了,隨時、隨地都是按需來進行使用比較方便,同時也比較高效。通過這種方式呢也可以能夠結(jié)構(gòu)化的降低我們用戶的使用成本。

      第三點我們在AI上面有很多的應(yīng)用或者很多的時間,其實我們AI里面一個重要的時間就是。通過AI的能力、AI的功能能夠反向來推動大數(shù)據(jù),讓我們的大數(shù)據(jù)算得越來越好,或者算得越來越快、算得越來越穩(wěn)定。因此我們把很多AI的這種這種能力,保證我們的大數(shù)據(jù)提取當(dāng)時的各種特征,來進行優(yōu)化或者來提升我們大數(shù)據(jù)的運算能力,最終讓用戶提得獲得一個更加穩(wěn)定、高效、并且可靠的這個大數(shù)據(jù)環(huán)境或者大數(shù)據(jù)服務(wù)。

      我們的大數(shù)據(jù)平臺服務(wù)、數(shù)據(jù)庫探索服務(wù)、企業(yè)級的數(shù)據(jù)倉庫服務(wù),還有智能數(shù)據(jù)湖運營的DAYU服務(wù),還有一個數(shù)據(jù)可視化的服務(wù)。

      下面我們主要介紹一下,大數(shù)據(jù)的服務(wù)比較簡單或者說比較通用,我們分分別看一下這些服務(wù)能夠在哪些場地來進行使用,或者在什么地方可以用得到。

      首先這個一站式的大數(shù)據(jù)平臺服務(wù),我們提供了數(shù)據(jù)端到端生命周期的各式各樣的處理部件或者處理能力,從數(shù)據(jù)接入、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)分析和挖掘等等等等這整套的。我們OCR之后的數(shù)據(jù)其實要首先把它存下來,存下來之后可能要做一些匯總、統(tǒng)計、數(shù)據(jù)、清洗和分析,分析完了之后,我們肯定要需要做一些呈現(xiàn)用的、用的glv等等等等。因此這個大數(shù)據(jù)平臺就是希望能夠把以往各式各樣的數(shù)據(jù),只要我們的數(shù)據(jù)量比較大。

      舉個簡單的例子,如果我們的數(shù)據(jù)量可能到了TB級別或者幾十TB級別,那么我們需要對這些數(shù)據(jù)進行處理的話,一般來說可能都都需要這種典型的大數(shù)據(jù)平臺來進行使用,或者來來做一個工具處理我們真正的這這些數(shù)據(jù),我們這個納稅平臺它的使用場景或者使用的目的可能就在于此,而且這個使用場景和目的啊在我們當(dāng)前看起來可能是跟行業(yè)沒什么關(guān)系的各行各業(yè),他可能比如說像互聯(lián)網(wǎng)、iot或者什么政府、金融、公安等等。這些行業(yè)他們的數(shù)據(jù)量其實都非常大,每天要處理的數(shù)據(jù)可能都按tb這個量級來進行來來進行衡量,可能是幾十T或者三百T這種這種量級。對他們來說更加需要這種大數(shù)據(jù)平臺來幫他們把整個數(shù)據(jù)、把它整理好、運算好,能夠給我們的領(lǐng)導(dǎo)、給給我們那個一線運營的人員,或者說給我們用戶看到一個良好的結(jié)果或者準(zhǔn)確的結(jié)果,這是我們這個大數(shù)據(jù)平臺他們的定位或者他們的能力是這個樣子的。那么其實每家每戶可能都有自己的大數(shù)據(jù)平臺,那么華為的大數(shù)據(jù)平臺除了我們最開始所提到的,我們基于存算分離和鯤鵬能夠為用戶提供一個更具備性價比、同時更穩(wěn)定、高效的這個大數(shù)據(jù)平臺。

      在生態(tài)方面,我們的大數(shù)據(jù)平臺是百分之百跟開源接口進行兼容的,開源生態(tài)里面能夠接入的那些工具、軟件或者服務(wù),在我們的華云平臺的大數(shù)據(jù)服務(wù)上面都可以都可以繼承過來或者都可以接入過來,方便用戶能夠比較方便或者比較靈活的把我們的大數(shù)據(jù)平臺遷移到華為云上面來。這是我們自己梳理了一下,我們的大數(shù)據(jù)平臺或者我們的MRS服務(wù)比較適用的這些場景。但現(xiàn)在我們看到這個一站式的大數(shù)據(jù)平臺,它只要滿足一個條件就基本上比較實用,就是我們做的只要能夠產(chǎn)生大量的數(shù)據(jù),而且這個數(shù)據(jù)可能占TB級別或者更大的這個重量維度來來看的話,超過了TB,幾十TB、上百TB或者TB級別的話,那么他們一般來說這些行業(yè)不得不使用這種大數(shù)據(jù)平臺來對我們的數(shù)據(jù)進行一些清晰轉(zhuǎn)換的話,能夠出一些匯總統(tǒng)計。同時還有一部分用戶可能會將來做一些類似用戶畫像、精準(zhǔn)營銷等等這方面的操作,來為我們的業(yè)務(wù)產(chǎn)生更多的價值。數(shù)據(jù)能夠通過大數(shù)據(jù)平臺產(chǎn)生價值,為上層的業(yè)務(wù)服務(wù)。

      比如在哪些行業(yè)可能有什么東西、有什么樣的使用方式呢?下面我們介紹個例子,一個例子是比較典型的iot的例子,就是我們有一個客戶,他們以前可能在線下的adc里面自己搭搭建了一套這個車聯(lián)網(wǎng)的這個車聯(lián)網(wǎng)的平臺,當(dāng)然主要使用了一些開源的這種大數(shù)據(jù)大數(shù)據(jù)平臺搭建的,他們把在基于新興idc搭建的這個平臺啊統(tǒng)一搬到了華為上,我們搬遷過程基本上實現(xiàn)了這個百分之百的接口兼容,就是他們的代碼基本一行沒改。他們以前的所有寫的那些應(yīng)用都可以在華為云上直接來進行使用或來進行遷移。同時呢在接口、代碼一旦不改的情況下,我們我們的平臺的專項的調(diào)優(yōu),能夠讓他跑運行過程中性能更加好、更加方便,而且運維也更加更加順暢一點。畢竟以前可能基于開源搭建的出問題的話,可能還要到開源社區(qū)去反饋、去求助。現(xiàn)在使用云服務(wù)的話,可能在這方面可能就不再需要了。總體來說,使用這個云上面的云服務(wù),能夠在對他們的業(yè)務(wù)、人員沒產(chǎn)生任何影響的情況下,可能帶來額外的收益或者更更多、更大的收益,就是在整個車聯(lián)網(wǎng)領(lǐng)域。

      總結(jié):

      隨著數(shù)字劃時代的到來,社會生產(chǎn)生活產(chǎn)生大量的數(shù)據(jù),數(shù)據(jù)量越來越大,種類越來越多、企業(yè)迫切對大量數(shù)據(jù)的背后價值進行挖掘、華為云大數(shù)據(jù)服務(wù)幫助企業(yè)構(gòu)筑從數(shù)據(jù)接入、存儲、計算和分析的全生命周期大數(shù)據(jù)解決方案,幫助企業(yè)客戶進一步挖掘數(shù)據(jù)價值,快速完成數(shù)字化轉(zhuǎn)型,激發(fā)制造企業(yè)的創(chuàng)新活力、發(fā)展?jié)摿娃D(zhuǎn)型動力。

      大數(shù)據(jù)

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:轉(zhuǎn)載》如何給女朋友解釋鴻蒙OS是怎樣實現(xiàn)跨平臺的?
      下一篇:表格橫向打印如何設(shè)置
      相關(guān)文章
      亚洲女人影院想要爱| 亚洲综合av永久无码精品一区二区| 亚洲永久精品ww47| 亚洲AV无码成人精品区狼人影院| 亚洲av极品无码专区在线观看| 亚洲国产综合无码一区| 综合亚洲伊人午夜网 | 亚洲国产精品无码一线岛国 | 一区二区三区亚洲| 亚洲尹人香蕉网在线视颅| 亚洲国产婷婷综合在线精品| 在线观看免费亚洲| 欧洲亚洲国产精华液| 一区二区亚洲精品精华液| 亚洲中文无码永久免| 亚洲成在人线中文字幕| 91亚洲精品麻豆| 亚洲视频在线观看免费视频| 久久亚洲春色中文字幕久久久| 久久久无码精品亚洲日韩蜜臀浪潮| 无码乱人伦一区二区亚洲| 亚洲A∨无码一区二区三区| 自拍偷自拍亚洲精品被多人伦好爽| 亚洲色成人网站WWW永久| 亚洲视频在线一区二区| 日韩一卡2卡3卡4卡新区亚洲| 狠狠亚洲婷婷综合色香五月排名 | 亚洲中文字幕无码mv| 亚洲国产综合精品中文第一| 亚洲色成人网站WWW永久四虎| 亚洲午夜久久久久妓女影院| 国产精品亚洲二区在线观看 | 亚洲一区综合在线播放| 亚洲另类视频在线观看| 亚洲自偷自拍另类12p| 亚洲最大黄色网站| 亚洲精品午夜视频| 伊人久久亚洲综合影院首页| tom影院亚洲国产一区二区| 亚洲精品久久无码| 亚洲国产婷婷综合在线精品|