大數據“復活”記
765
2025-03-31
隨著大數據技術的飛速發展,云計算、人工智能、IoT、通信等領域的技術也不斷出現相關的新突破。作為這些領域發展的基礎,大數據儼然已成為現階段各應用場景下不可或缺的基礎之一。并且隨著互聯網的持續深化,大數據也呈現出"日?;?的趨勢,對于很多領域的企業來說,大數據就是日常所面臨的應用場景。那么應該如何在大體量數據的場景下,確保應用開發效率與系統性能不受影響?
11 月 15 日,【DevRun·選擇不凡,華為云開發者沙龍 2019】走進杭州,為大家帶來各位開發者所關注的 OLAP 數據分析、分布式系統性能優化、快速構建 IoT 體系、人工智能在通信領域的應用等眾多議題,現場為大家解讀大數據場景下的應用開發與系統架構搭建的方法論。
數據體量越來越大,對于數據的綜合處理與分析能力也就愈發重要,但是傳統數據庫難以滿足海量數據的性能要求,MPP 數據庫在企業數字化轉型過程中的作用愈發凸顯。現場,華為 GaussDB OLAP 數據庫架構師李新劍老師,為大家解密 GaussDB OLAP 數據庫的架構與核心競爭力。
GaussDB OLAP 數據庫是一款具備分析及混合負載能力的分布式數據庫,支持 x86 和華為鯤鵬硬件架構,支持行存儲與列存儲,提供 PB(Petabyte) 級數據分析能力、多模分析能力和實時處理能力,可用于數據倉庫、數據集市、實時分析、實時決策和混合負載等場景,以及金融、政府、電信等行業核心系統。
GaussDB 邏輯架構圖
其主要具備高擴展、高可靠、高性能、易運維、標準 SQL、云服務這 6 大特性。但是在實際應用中,往往會遇到如 x86 PC Server 集群架構下單核處理能力有限以及未來 ARM64 眾核架構下,解決眾核、Numa 架構資源利用等問題。
使用全并行計算,最大化利用系統計算資源利用率,提升處理性能。其中涉及到分布式執行框架、多線程并行算法、SIMD+ 向量化引擎以及 LLVM 編譯執行方法。
行列混合引擎,用表級別指定行存和列存,可根據點查詢、數據更新、統計分析、批量加載等場景下選擇不同的存儲類型。
列存向量化執行技術,通過向量化執行相對于傳統的執行模式:一次一元組的模型 -- > 一次一批元組,提升迭代器模型效率,以達到提高 CPU 利用率、新硬件加速以及提升磁盤 I/O 效率的目的。
分布式并行計劃,基于 PG 的 pipeline 機制引入流算子處理 DN 間數據的交互方式,打造全新的生產者 - 消費者模型分布式最優計劃選擇,采用全局統計信息技術和分布式代價估算方法,集合 Local/global 雙重處理機制,以達到提前縮小結果集大小,減少網絡傳輸、減少網絡重分布的目的。
支持多業務統一管理的彈性集群,通過智能優化器用戶的每個 query 找到正確的邏輯集群與性能最佳的數據,打造彈性集群的智慧大腦。
SMP 和多 Node Group 技術,是利用代價估算和路徑搜索生成不同 dop 和 dn 數的計劃,基于在線擴容的技術基礎上,利用多個 DN 的計算資源 candidate 生成執行計劃,再根據代價選擇合適的 node 集合進行計劃執行。
執行引擎性能優化,使用向量化引擎來滿足一次調用處理多行數據并減少調用次數,同時使用 LLVM 技術,預存動態編譯的機器碼,減少運行時 CPU 指令數。
內存自適應技術,其關鍵在于語句級內存估算、語句級內存調整、執行內存自適應的三步走戰略。
在線擴容技術,通過引入一套增量機制記錄擴容重分布過程中的數據修改(增刪改),等基線數據重分布完成后,將增量數據合入集群中。并支持算子下推到 Data Node,極大的提高了擴容期間關聯查詢的性能。
在應用遷移的過程中,分析掃描工具、移植工具、調優工具以及加速庫永遠是最受關注的四個部分。會上,華為智能計算架構設計專家羅靖老師,為大家詳細講解了鯤鵬生態下的應用遷移全流程。
分析掃描工具( Dependency Advisor ):提升軟件移植分析效率和準確率
當有應用需要移植到Kunpeng服務器上時,通過分析移植軟件包依賴庫,來評估移植應用的代碼量和工作量,以解決軟件移植評估分析過程中人工分析投入大、準確率低,整體效率低下的痛點。
基于源代碼的軟件移植到 Kunpeng 服務器上的需求時,可以使用 Porting Advisor 分析待移植軟件源碼文件,并及時給出代碼移植指導報告。從而能夠解決客戶代碼兼容性人工排查困難、移植經驗欠缺、反復依賴編譯調錯定位等,投入工作量大,整體效率低的痛點。
在 Kunpeng 服務器上運行時遇到性能或體驗問題時,可用 Tuning Kit 來快速分析、定位及調優,通過采集系統數據并分析系統性能的關鍵指標,將問題定位到瓶頸點及熱點函數,可以高效解決軟件在遇到性能問題時人工經驗定位困難、調優能力弱的痛點。
glibc 基礎庫目前已優化 16 個最常用接口,整體上對比業界主流的 benchmark 測試指標提升 4.16%,對 gzip 壓縮庫有 8% 的性能提升,在數據庫、DPDK、分布式存 儲、web 等場景下有較明顯的性能提升,目前已在鯤鵬開源社區開源,已經推廣至 GNU 社區,已評審并接納 7 個函數,2020.3 月份會作為基礎庫正式發布。
隨著 5G 的商用,智能應用、數字化應用將逐漸成為社會生活的主流,物聯網成為現在最火熱的技術領域之一。根據華為 GIV(全球產業愿景)報告預測,2025 年全球聯接的設備數將達 1000 億,在這樣萬物互聯的趨勢下,物聯網的重要性不言而喻。那么在 IoT 時代,應該如何高效構建行業應用以及打造端到端的解決方案?華為 IoT 生態解決方案高級工程師劉明星老師,為大家講解了如何基于華為智能 IoT 平臺來搭建行業應用。
華為 OceanConnect IoT 云服務基于華為物聯網生態開放設計理念,遵循”開放層次 - 開放形式 - 開放平臺“三步走的戰略。其中,開發層次即從 API 到 SDK,再到圖形化,開放的層次越來越高,易用性也越來越好;開放形式,即分為樣例代碼、開發指南、API 文檔、工具等多樣化套件,匹配各自的生態伙伴;開放平臺,即通過打造開發者社區以及開發者平臺,提升開放平臺整體的開放效率。
華為 OceanConnect IoT 云服務
作為 ICT 與 IoT 領域的核心推動者,華為致力于解決產業物聯網的共性難題。在技術層面,華為云 OceanConnect IoT 云服務匯聚華為的關鍵技術積累,聚焦”Access + Insight + Action“使能行業服務,解決設備協同管理、數據分析成本高、行業差異性大等問題。在垂直領域方面,華為深耕重點行業,與車聯網、智慧交通、智慧物流、智慧城市、智慧園區的龍頭企業聯手,從技術、政策、生態等多個維度深度融合,共同應對行業轉型挑戰,合理推動產業物聯網發展。
目前,大規模與高并發的應用場景越來越常見,分布式系統逐漸取代一體式的架構成為主流,但是即便采用分布式系統,在面對巨大流量沖擊的場景下,系統性能仍然受到很大挑戰。華為云 PaaS 團隊架構師王啟軍老師,現場解讀了分布式系統的性能優化方向。
首先,王啟軍老師現場解釋了性能的含義。他認為,性能是一定包含響應時間、吞吐量、資源占用這三部分,其中資源占用包含 CPU、網絡、磁盤、內存等硬件條件的資源使用率。
做性能優化應該首先考慮應用程序,一個功能完整的應用程序會去調用數據庫、操作系統、系統庫、調用操作系統相關的函數以及設備,因此做應用的性能優化要從緩存、MQ、服務通信、數據庫和業務簡化這 5 個方向去做,并且要找到性能優化的拐點。
什么是拐點呢?大多數情況都是下圖的情況,隨著吞吐量的上升,響應時間突然之間會發生急劇的變化,這個點就是拐點,也就是要優化的目標。
并且,高性能也是有成本的,最好是基于成熟的框架來實現,如華為云的 ServiceComb 非阻塞線程模型。
因為如果選擇自己去做一個全新的框架或模型,不僅會遇到各種各樣的問題,調試起來也是非常麻煩,由于系統里每一處模塊并非對性能的需求很高,因此完全可以采用同步式的方法來滿足業務的需求。但是當系統非常多的時候,用戶體量也非常大,被部署的節點自然就會很多,那么采用 ServiceComb 非阻塞線程模型就是非常必要的了。
比如華為手機有 5 億用戶,5 億用戶就會部署很多節點,比如某一個服務部署了 3000 個節點,如果性能提升一倍,可能就變成了 5 萬個節點。實際上我們 ServiceComb 在手機端華為商城采用了 ServiceComb,性能提升了提升了至少 30% 以上。
隨著 5G 的商用,通信領域再一次受到了大家的重視。盡管頂尖的先進技術不斷發展,但是在當前場景下,仍面臨著資源利用率低、能源消耗高、運維效率低等痛點,因此對于通信領域來說,基于業務驅動,實現網絡的敏捷、自動化和智能化的網絡自動駕駛技術,是解決當下 ICT 網絡領域預測類、手工重復類、場景復雜等問題的最有效方法。
作為以通信行業為根本的華為,在這方面自然不甘人后。華為 NAIE 云服務專家黃海軍老師,現場介紹了華為 NAIE 云服務平臺在通信領域驕人成績。
針對不同領域以及不同層面的開發者,NAIE 在數據采集與處理階段,提出了三種解決方案:
數據資產管理服務,提供通信數據采集、存儲、解析、建模、處理、分析、發布等工具服務能力,支撐用戶把原始數據高效、高質量加工為有價值的數據集。數據集服務,匯聚華為通信領域實驗室構造數據樣本,數據覆蓋設備網元、網絡狀態、網絡拓撲、用戶體驗等領域,通過專業治理和標注,為用戶提供全域、高質量的通信網絡數據集。數據生成服務,基于數據仿真和實驗室模擬網絡,面向開發者提供異常標注數據和仿真數據的在線生成能力,供用戶生成個性化的數據,用于模型訓練和驗證。
該平臺,為中級以及高級的模型開發者,提供了兩種不同的功能服務。
為中級模型開發者提供模型生成服務,集成多種電信業務場景所需模型的特征提取、數據建模、算法調測等,讓開發者輸入符合要求的訓練數據,進行場景選擇和模型參數配置,即可快速完成模型的訓練和驗證,生成所需場景的 AI 模型,大幅降低電信 AI 模型開發的技能門檻和周期。
為高級模型開發者提供模型訓練服務,提供電信領域 IDE 一站式模型開發服務,從數據預處理,到特征提取、模型訓練、模型驗證,本服務為開發者提供開發環境、模擬驗證環境,API 和一系列開發工具(如 SDK、數據預處理工具等),幫助開發者快速高效開發電信領域模型。
基于云上推理框架,讓用戶輸入推理數據,快速完成結果推理,用于其他應用服務。以 KPI 異常檢測為例,從大量的 KPI 輸入數據中精準高效識別出 KPI 異常,識別結果可用于其他應用,如幫助預判故障或在故障發生時幫助快速定位問題。
以繁榮網絡 AI 產業為己任,涵蓋數據貢獻者、數據科學家、算法開發者、業務專家以及模型消費者的閉環全流程,通過 AI 生態,為其提供數據生成服務、模型訓練服務、數據資產管理服務、模型生成服務、通信模型服務等功能。
現場通過理念與實踐的結合,相信今天的沙龍,為到場的開發者帶來了大數據處理與各領域應用建設不一樣的理解。華為云 DevRun 沙龍,愿盡華為云自身最大的技術優勢,來為開發者搭建最優質的的開發體驗與經驗分享,下一場 DevRun 沙龍,我們不見不散。
GaussDB數據庫 GaussDB
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。