云計算行業應用—大數據@音視頻(一)

      網友投稿 871 2025-03-31

      隨著通信、互聯網及物聯網等技術的不斷發展,企業所提供的互聯網服務能夠被越來越多的接入方式諸如:網頁、手機終端、電視終端、家庭智能終端設備等進行訪問。越來越細致多樣的數據統計、收集方式的應用,使得越來越大規模的數據被生產出來。據IDC發布《數據時代2025》的報告顯示,全球每年產生的數據將從2018年的33ZB增長到175ZB,相當于每天產生491EB的數據。

      大規模數據的產生需要大數據存儲、大數據分析及應用的發展、支撐來發揮數據的潛在價值。伴隨著人類產生數據量級的增長,大數據技術也在不斷的更新和迭代,數據管理工具得到了前所未有的發展:從最初簡單的數據庫系統到如今規模龐大且功能強大的商業智能BI、數據倉庫、數據湖、湖倉一體等概念,大數據的存儲及處理技術日新月異,本系列將結合音視頻業務,來對大數據領域的一些概念和相關云計算服務進行探討。

      1. 關系型數據庫

      關系型數據庫這個概念大家都很好理解,最直觀的例子就是一個Excel表格。關系型數據庫是高度結構化且規律數據的集合,具有結構化程度高、獨立性強、冗余度低等特點。隨著關系型數據庫理論的不斷豐富和數據庫使用范圍的不斷擴大,這一領域逐步劃分為兩大基本類型:操作型數據庫和分析型數據庫。

      操作型數據庫主要用于業務支撐,只會存放較為短期的數據,數據主要以細節數據為主,整體數據通常反應的是現實世界的當前狀態。從操作上來講,操作型查詢的數據量少而頻率多,允許用戶進行增、刪、改、查的操作,多用于用戶、商家、進貨商等業務環境角色。

      分析型數據庫主要用于歷史數據的分析,負責利用歷史數據對公司各主題域進行統計分析。為了支撐分析,分析型數據庫存放的是數年內的數據,用戶重點關注的是其中所存儲的匯總數據而不像操作型數據庫的細節數據,使用者利用分析型數據庫對歷史階段進行統計分析,最終制定綜合性的決策。此類數據庫大多只有查詢功能,是針對各特定業務主體域的分析任務創建的,是一種“面向主題型數據庫”。

      2. 非關系型數據庫

      與傳統關系型數據庫采用表格的存儲方式,數據以行和列的方式進行存儲不同,非關系型數據庫NoSQL面對的是大量非結構化數據的存儲如:鍵值對、文檔、地理位置數據、圖結構等。非關系型數據庫采用的是動態結構,對于數據類型和機構的改變非常適應,可以根據數據存儲的需要靈活的改變數據庫的結構。

      非關系型數據庫大致分為以下幾類:

      文檔數據庫:這類數據庫通常將每個鍵與稱為文檔的復雜數據結構配對。

      鍵值存儲:鍵值存儲是NoSQL數據庫中最簡單的數據庫,其中每個單獨的項都存儲為鍵值對。

      寬列存儲:此類數據庫針對大型數據集上的查詢進行了優化,將數據列存儲在一起,而不是行。

      圖存儲:這類數據庫是針對以“關系”為基礎的“圖”結構的數據進行查詢、分析。廣泛應用于社交關系分析、營銷推薦、輿情探查、信息傳播、風控等具有豐富關系數據的場景。

      Figure 1 圖數據結構

      以圖結構數據的存儲、分析為例,華為云提供了完整的圖數據解決方案:華為云圖引擎服務Graph Engine Service。

      GES圖引擎是一站式的圖數據庫、圖引擎產品,支持圖數據的存儲和查詢一體化,具備完善的圖分析、查詢、圖深度學習和可視化能力。從層次結構來看,GES的產品服務結構可以分為四層,自底向上分別是云原生圖存儲、自研內核、查詢與分析、圖解決方案。云原生圖存儲提供了主備和存算分離模式的高可用服務,支持千億點邊的圖數據存儲;自研內核曾斬獲2018年數博會、2019年人工智能峰會、2020年國際金融科技大會等多項大獎;查詢與分析支持一份數據做兩件事,查詢與分析一體化,支持Cypher和Gremlin兩種主流查詢語言及自研Rest API,提供了30多種高性能算法,包括10多種圖神經網絡與嵌入算法。當前,GES已應用于金融、政務、安平和工業等領域,為領域客戶提供了多種性能優良的解決方案。

      Figure 2 華為云GES服務架構圖

      3. 數據倉庫

      在介紹數據倉庫之前我們需要簡單地介紹一下OLTP和OLAP的概念。OLTP(online transaction processing 聯機事物處理),簡單理解就是符合ACID事物的數據庫的增刪改查,基本都是高可靠的在線操作;OLAP(online analytical processing 聯機分析處理),查詢頻率較OLTP系統更低,但通常會涉及到非常復雜的聚合計算。OLAP系統以維度模型來存儲歷史數據,是為了分析數據而設計的,需要基于多維視圖的數據操作來進行大量數據的匯總計算。OPAP系統數據來源于各種OLTP數據庫,需要把各種來源于OLTP的異質數據通過ETL轉換做到同質并合并。

      數據庫的大規模使用和數據量級的飛速增長使得人們迫切的需要使用OLAP 來研究數據之間的關系并挖掘數據隱藏的價值,從而探究深層次的關系和信息,支撐決策者做出合理的決策。為了達到大規模數據OLAP分析以及解決不同數據庫間數據不能共享、集成,把分布在各個散落獨立的數據庫孤島整合在一個數據結構里面的問題,數據倉庫(data warehouse)應運而生。

      數據倉庫是一個面向主題的、集成的、相對穩定的、能反映歷史變化的數據集合,用于支持管理中的決策制定。數據倉庫的建立離不開處理各個數據孤島(存儲在不同的物理位置、不同的存儲格式、不同的數據庫平臺、不同編寫語言等)的過程,數據倉庫需要將他們按照所需要的格式提取出來,再用ETL進行統一格式的轉換、清洗,最后裝載進數據倉庫。數據倉庫和OLAP互相促進發展,實現跨業務、夸系統的數據整合,為管理分析和業務決策提供統一的數據支持,進一步驅動了商務智能的成熟。

      4. 數據集市

      數據集市(data mart)可以理解為是一種“小型數據倉庫”,它只包含單個主題,且關注的范圍也并非全局,是為了滿足特定部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數據立方體。

      數據集市可以分為兩種:

      一種是獨立的數據集市,這類數據集市有自己的源數據庫和ETL架構;

      另一種是非獨立數據集市,這類數據集市有自己的源數據庫,它的數據來自數據倉庫。

      5. 數據湖

      云計算行業應用—大數據@音視頻(一)

      Figure 3 數據湖

      數據湖(data lake)是當前比較火熱的一個概念,為什么叫數據“湖”而不是“河”或是“海”,有一個很有意思的理解:“河”強調的是流動性,河最終是要流入大海的,而企業級數據是需要長期沉淀的,因此,“湖”比“河”更貼切;“海納百川”,海給人們的印象是無邊無界,而“湖”是有邊界的,這個邊界就是企業、組織的業務邊界,因此數據湖需要更多的數據管理和權限管理能力。同時,湖水是天然分層的,滿足不同的生態系統需求,這與企業建設統一數據中心,存放管理數據的需求是一致的,“熱”數據在上層,方便應用隨時使用;“溫”數據、“冷”數據位于數據中心不同的存儲介質中,達到數據存儲容量與成本的平衡。叫“湖”的另一個重要原因是數據湖是需要精細治理的,一個缺乏管控、缺乏治理的數據湖最總會陷入“數據沼澤”,從而使應用無法有效訪問數據,使湖中的數據失去價值。

      學術點來講,數據湖是一個能夠存放企業各種類型、各個階段、各方來源數據的大型倉庫,允許用戶存儲任意規模的所有結構化(行、列數據)、半結構化(如CSV、日志、XML、JSON)、非機構化(如email、文檔、PDF)和二進制(如圖像、音頻、視頻)數據。用戶可以無需對數據進行結構化處理的對原樣數據存儲,并在存儲數據之上運行不同類型的分析如SQL查詢、大數據分析、全文搜索、實時分析和機器學習等來深度挖掘數據價值。

      總的來講,數據湖具有的特點包含以下幾點:

      數據湖可以存儲任意類型的數據;

      數據湖需要提供足夠大的數據存儲能力來存儲企業/組織所有數據,以及可擴展的大規模數據處理能力;

      數據湖中能夠保持數據在它們業務系統中原來的樣子,是業務數據的完成副本;

      數據湖需要具備完善的數據管理能力(完善的元數據),可以管理各類數據相關的要素,包括數據源、數據格式、連接信息、數據schema、權限管理等;

      數據湖需要具備多樣化的分析能力,包括但不限于批處理、流處理、交互式分析以及機器學習;

      數據湖需要具備一定的任務調度和管理能力;

      數據湖需要具備完善的生命周期管理能力。不光需要存儲原始數據,還需要能夠保存各類分析處理的中間結果,并完整的記錄數據的分析處理過程,能夠幫助用戶完整詳細追溯任意一條數據的產生過程;

      數據湖需要具備完善的數據獲取和數據發布能力,能夠支撐各種各樣的數據源,并能從相關的數據源中獲取全量/增量數據然后規范存儲。能夠將數據分析處理的結果推送到合適的存儲引擎中,滿足不同的應用訪問需求;

      華為云提供完整的數據湖解決方案,提供企業級的、滿足大數據存儲、分析多場景融合的的統一平臺。它面向企業的大數據分析,提供海量數據存儲、流處理、數據倉庫、機器學習、查詢檢索等功能,覆蓋企業大數據業務的多種場景。功能上,它是個開放的、分層解耦的架構,企業可以像搭積木一樣按業務場景的需要來選擇組件。

      Figure 4 華為云數據湖解決方案

      綜上,我們在本節沿著大數據相關業務需求和技術演進的發展方向,討論了大數據相關基礎技術的概念,從基礎的關系型數據庫出發,到對結構化數據精細分析的數據倉庫、數據集市,再到不滿足于結構化存儲的非關系型NoSQL數據庫,最后到“包羅萬象”的數據湖。在下一章節中,我們會以音視頻行業真實業務架構為例,進一步探索大數據相關技術及架構的演進和應用。

      BigData Pro 大數據 云計算 圖引擎服務 GES 數據使能 數據湖治理中心 DGC

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:okr是什么意思啊?為什么要OKR?
      下一篇:有個黑馬okr軟件嗎(okr軟件排行榜)
      相關文章
      亚洲日本VA午夜在线影院| 午夜亚洲www湿好大| 亚洲网站视频在线观看| 亚洲av之男人的天堂网站| 中文字幕亚洲图片| 在线精品亚洲一区二区三区| 亚洲人成电影网站国产精品| 亚洲中文无码卡通动漫野外| 国产亚洲精品影视在线| 亚洲日本va一区二区三区| 亚洲av无一区二区三区| 亚洲AV日韩AV无码污污网站| 色偷偷尼玛图亚洲综合| 色偷偷亚洲男人天堂| 国产精品自拍亚洲| 国产精品亚洲а∨无码播放麻豆| 国产精品久久久久久亚洲影视| 国产AV无码专区亚洲AV麻豆丫| 久久水蜜桃亚洲AV无码精品| 色九月亚洲综合网| 亚洲人午夜射精精品日韩| 亚洲一区日韩高清中文字幕亚洲| 亚洲综合亚洲综合网成人| 亚洲一区二区三区影院 | 亚洲人成网站在线播放vr| 亚洲色婷婷综合久久| 亚洲AV无码成人精品区在线观看 | 亚洲欧美国产欧美色欲| 亚洲aⅴ无码专区在线观看| 国产亚洲精品美女| 久久久久亚洲av成人无码电影| 国产亚洲AV夜间福利香蕉149| 亚洲日韩激情无码一区| 亚洲男人都懂得羞羞网站| 亚洲第一网站免费视频| 成人区精品一区二区不卡亚洲| 亚洲爆乳无码精品AAA片蜜桃| 亚洲福利精品电影在线观看| 最新精品亚洲成a人在线观看| 亚洲国产AV无码专区亚洲AV| 911精品国产亚洲日本美国韩国|