【云小課】EI第29課 大數據時代的隱私利器-GaussDB(DWS)數據脫敏
799
2025-04-08
如今,移動互聯網深入滲透到人們的工作和生活中,帶來了數據量的爆炸式增長。 例如, 社交網絡平臺Twitter成立只有短短13年,但其數據量已經龐大到了超過全世界數字化書籍的數據量總和。
這僅僅是大數據時代的一個典型范例。數據量的增長速度到底有多快?此前有推測稱,預計到2020年,世界上每個人每秒將創建7MB數據,這還不包括物體上的傳感器產生的數據。而隨著5G的到來,傳感器可能會遍布在我們身邊的每個地方,大數據必然如暴風雨向我們襲來,而所要處理的信息更加難以估量。如今,我們計量大數據的單位已經是PB、EB甚至ZB,PB級的數據在大數據時代早已經見怪不怪,5EB數據量相當于至今全世界人類所講過的話;1ZB相當于全世界海灘的沙子數量總和。
“大數據已死”之說與數據的價值迷思
都說“得數據者得天下”,然而讓人失望的是,這個世界上的大多數數據都沒有被充分挖掘和應用,就像是閃閃發光的金子被埋葬于地下。從海量的數據中挖掘出有價值的信息,就如同浪里淘金一般困難。
毋庸置疑,數據將成為企業的智能生產力,為企業在數字世界與現實世界的深度融合提供全面的競爭力。此外,大數據技術和應用已經從喧囂的膨脹期進入到了“技術成熟度曲線”的成熟應用期,更多的企業從嘗試性部署進入到了規模部署階段。
隨著5G時代的到來,我們將會進入到一個萬億級鏈接的時代,而5G的毫秒級時延、超大的帶寬,讓企業必須快速響應市場。大數據分析已經從輔助決策轉變為了實時生產系統,精準、實時地展示分析結果。
縱觀整個大數據行業,自從2006年Apache Hadoop架構發布以來,企業一般是在自己的機房自建IDC數據中心,而采用的大多是基于Hadoop的架構演進出來的開源或者商用的大數據軟件。這種架構的設計基于計算和數據就近的原則,采用計算和存儲融合的架構,也被稱為”一體機”。然而,企業在IDC中部署這種“一體機”帶來的問題是,其計算和存儲本身的配比關系相對是固定的,也就是說,每一臺服務器提供多少算力,同時也提供多少存儲容量。當計算出現不足,而存儲還有很多空間的時候,企業無法單獨擴容計算節點,反之亦然。實際應用中,自建方案為存算一體的方案,平均資源利用率低于25%。
如今,現有的存算一體架構已經無法滿足大數據的增長速度,這也是很多大數據行業專家提出“大數據已死“的一個主要原因。那么,企業大數據應用主要面臨著哪些挑戰?
首先,企業需要面向結構化數據、非結構化數據、實時數據等多種類型的數據提供高擴展且統一的數據管理和數據存儲能力;
其次,在數據空間持續增長的背景下,大數據應用場景不斷增加,企業需要更加高效的算力。例如爆款新品、熱點事件等帶來的業務浪涌,需要企業大數據系統擁有極致的彈性能力。
再次,大數據行業技術棧迭代迅速,企業自行構建IDC中心和自行部署軟件,一次性投資大,且折舊成本高,運營運維負擔沉重。
最后,企業需要的不是獨立的大數據軟件或組件,而是需要一套完整的從數據存儲到數據集成再到數據分析挖掘的解決方案,用以滿足企業持續發展的需求。
破解企業大數據之殤的利器——BigData Pro
可能很多人會又一個疑問,既然存算一體的架構挑戰重重,那么,計算和存儲是否一定要在一起?實際上,當網絡不再是瓶頸,計算和存儲就可以分離。計算和存儲分開之后的好處也是顯而易見的。
過去,原有非互聯網數據可以很容易地集中輸送到數據倉庫,數據在本地獲取,相對來說比較方便便捷。但當前的海量數據的產生是分布式的過程,尤其是互聯網快速發展,不管是用戶的支付行為、游戲,又或是用戶在網絡上的瀏覽行為等等,這些分布式數據如何快速匯集到一個地方呢?這種分布式數據生產,需要有一個分布式專門處理云數據的存儲設備來對數據進行采集和管理。而公有云的云存儲(主要是對象存儲)本身就是互聯網存儲服務的形態,不管是通過公網或專線,都可以很容易地把不同來源的數據匯總起來,從這個層面來看,云存儲的優勢就顯現出來。
不久前,華為云在重慶智博會上發布的業界首個鯤鵬大數據解決方案——BigData Pro就是基于上述背景而誕生,是云上的計算和存儲分離大數據解決方案。企業擁有更高性能、更高擴展、更易訪問的海量數據管理和大數據分析能力將成為現實。
據筆者了解,華為云BigData Pro鯤鵬大數據解決方案實現了四大pro進化,同時兼容開源和商業大數據生態,讓企業大數據應用可0改造平滑移植上云:
首先,華為云對大數據架構進行了升級,推出了基于云服務的存算分離架構。讓企業能對存儲和計算資源靈活配置,根據業務需要各自獨立進行彈性擴展。資源匹配更精準、更合理,讓大數據集群資源利用率大幅提升,綜合分析成本最高可降低50%。
其次,智能云存儲進化,多協議互通大幅降低數據存儲成本。華為云OBS對象存儲服務全新的Data Multi-Protocol功能,提供統一的數據存儲底座,可實現多樣化異構數據共池存儲,同時提供多協議訪問和互通能力,讓大數據應用可以直接讀寫OBS,無需協議轉換,數據之間互通共享,可避免數據多次轉換或拷貝,大幅提高分析效率,存儲利用率提升140%。
再次,得益于華為鯤鵬處理器多核優勢,結合華為云在任務調度上的算法優化,使得CPU具有更高的并發能力。在數據傳輸效率方面,集成了100G網絡控制器,是當前數據中心主流25G網絡帶寬的4倍,讓大數據集群之間的數據傳輸效率成倍提升。在海量數據高并發場景,華為云BigData Pro鯤鵬大數據解決方案充分發揮鯤鵬多核的極致性能,讓云上部署的大數據集群綜合性價比領先業界通用架構平臺20%。
最后,由于采用了鯤鵬云容器技術,算力可無限擴展。借助Serverless架構優勢和華為自研的高性能容器批量計算平臺Volcano,鯤鵬云容器的發放速度可以達到每秒1000臺,提升了10倍;高性能容器網絡降低容器間通信時延,轉發效率超業界50%。
彈性!精準!效益!
可以說,從應用層面上,華為云BigData Pro鯤鵬大數據解決方案解決了一個個看似簡單、背后卻非常復雜的問題。因為雖然海量數據就在那里,但能不能把它們變成有價值的信息才是關鍵。華為云云存儲技術專家在采訪中也表示,華為云BigData Pro鯤鵬大數據解決方案特別適合于存儲數據量和計算量相對比較大、且有彈性需求的場景。畢竟,大數據在各個行業歸根結底,本質上都是體現在批處理和流處理兩個方面。
以游戲直播為例,通常數據量會達到PB級。在直播過程中,主播和觀眾是有交互的,如觀眾給主播送禮物等。直播平臺會根據主播與觀眾互動的行為,生成行為分析進行大數據批處理,例如,主播的哪些行為和操作能帶來更多的觀眾,又或是哪些行為對粉絲的吸引有負影響,處理結果反饋給主播來支撐行為決策。同時,能夠給直播平臺反饋出數據分析,例如推出哪些業務組合是比較受用戶和主播歡迎,通過用戶畫像和用戶行為分析來支撐整個運營的決策。據了解,斗魚網絡基于華為云BigData Pro大數據方案,構建公有云上的存算分離大數據分析平臺,分析時長平均縮短35%。
再以廣告營銷行業為例,我們知道,廣告行業的核心就是做用戶畫像,做完用戶畫像以后,如果有廣告商需要投放什么廣告,會把相應的廣告投放到對應的客戶群體去。用戶畫像的數據量是比較龐大的,因為一般是從全球采集的實時數據來構建用戶的畫像庫,而計算和存儲資源更好的匹配則可以大幅降低大數據業務構建的成本,也擺脫復雜的底層運維工作。
寫在最后
Cloud+AI+5G+IoT時代意味著更多樣的數據源、更大規模的數據量級、更巨大的算力需求? 不用慌,華為云BigData Pro鯤鵬大數據解決方案將幫助企業打開通往大數據未來的希望之門。
9月18日-9月20日,2019華為全聯接大會(HUAWEI CONNECT 2019)將在上海世博中心舉辦,各種最新黑科技、產品與解決方案將重磅亮相。
IoT 5G 人工智能 大數據
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。