大數據“復活”記
958
2025-03-31
AI、IoT、云計算等技術的不斷發展,為企業提供了前所未有的發展良機。在邁向智能化的過程中,企業的創新、效率、體驗等得到了大幅度的提升,但與此同時,也在面臨種種挑戰。企業該如何實現對數據高效、穩定、持續地管理?如何避免應用系統效率低下,資源浪費嚴重?AI 開發者又該如何解決技術更迭迅速、高質量數據資源不足、算法能力不足、模型訓練慢等問題呢?
11 月 1 日,DevRun·選擇不凡——華為云開發者沙龍走進廣州,華為云的 5 位技術專家也針對 GaussDB OLAP 分布式數據庫、ModelArts、華為沃土數字平臺、微服務實踐、NAIE 平臺等內容,與現場開發者交流技術難點與解決方案。
數據庫已成為信息基礎設施的核心技術和重要基礎。數據庫的開發難度不僅體現在與其他基礎器件的適配,更在于如何實現對數據高效、穩定、持續地管理。
當下,隨著數據規模不斷增長,基于互聯網的實時交互也無處不在,用戶對數據的基本需求呈現出兩個主要類別:OLAP(在線分析處理)和 OLTP(在線交易處理)。其中,OLAP 數據庫主要用于存儲供商業智能業務統計和分析歷史記錄。
GaussDB OLAP 數據庫是一款具備分析及混合負載能力的分布式數據庫。從 2011 年開始,華為基于 PostgreSQL 9.2.4,對 GaussDB OLAP 數據庫進行自主研發,GaussDB OLAP 數據庫支持 x86 和華為鯤鵬硬件架構,支持行存儲與列存儲,提供 PB(Petabyte) 級數據分析能力、多模分析能力和實時處理能力,可用于數據倉庫、數據集市、實時分析、實時決策和混合負載等場景,以及金融、政府、電信等行業核心系統。
據華為 GaussDB OLAP 數據庫技術專家李茂增老師介紹,GaussDB OLAP 數據庫采用 Shared-nothing(無共享)架構,具備超強的橫向擴展能力,可擴展至 2048 節點;采用全并行計算技術和列存向量化引擎技術,可以輕松實現萬億數據關聯分析秒級響應。另外,GaussDB OLAP 數據庫充分利用鯤鵬芯片多核的特點,通過核間并行、核內并行、指令集并行、編譯并行、系統資源優化、調度策略優化等技術,實現性能超越其他芯片 48%。
其中,全并行的分布式查詢處理是 GaussDB OLAP 數據庫中的核心技術之一,它可以最大限度地降低查詢時節點之間的數據流動,以提升查詢效率。GaussDB OLAP 數據庫為達成高性能數據分析目標,實現了一套高性能的分布式執行引擎,執行引擎以 SQL 引擎生成的執行計劃為輸入,將元組按執行計劃的要求進行加工并將結果返回給客戶端。
一個涉及多個執行算子的復雜查詢的大概執行過程如下圖所示:
CN 接收到查詢任務(通常是 SQL 語句描述)后,通過后續操作獲取結果集返回給客戶端。
CN 的 SQL 引擎對 SQL 語句進行語法解析并生成由數據處理執行算子組成的執行計劃。
隨后 CN 會生成最優的基礎任務執行序列,并將這些基礎任務部署到各個 DN 節點上去執行。
各個 DN 在執行時通過流算子進行數據交互和流動。完成成數據處理后,會將結果匯總到 CN 上并輸出到客戶端。
不僅如此,GaussDB OLAP 數據庫分布式查詢技術還包括:
多樣化查詢重寫技術:通過規則等價變換規則,生成高效執行計劃;
分布式最優計劃選擇:利用全局和 DN 雙重統計信息進行代價估算,可減少網絡傳輸數據量以及網絡重分布;
數據傾斜處理技術:利用統計信息避免傾斜計劃,并在運行時進行傾斜處理。可分為靜態傾斜處理方案以及 RLBT(Runtime Load Balance Technology) 方案;
SMP/ 多 Node Group 技術:利用代價估算和路徑搜索生成不同 Dop 和 DN 數的計劃。CN 選擇合適并行度生成最優計劃,DN 實現線程間數據傳輸,利用 Hashtable 共享減少內存使用。還可利用多個 DN 的計算資源 Candidate 生成執行計劃,根據代價選擇合適的 Node 集合進行計劃執行,是在線擴容的技術基礎;
向量化引擎 /LLVM 技術:一次調用處理多行數據,減少調用次數 / 預存動態編譯的機器碼,減少運行時 CPU 指令數。
內存自適應處理技術:查詢計劃中重內存算子的內存使用 work_mem 進行控制,此為算子級控制,所以無法進行語句級內存使用的控制,且多并發場景會導致內存不受控。可以通過語句級內存估算以及語句級內存調整等方法使內存自適應。
在數字化轉型的大浪潮下,并不是引入了數字技術就意味著效率的必然提升。對于整個行業而言,需要數據能夠匯集,然后基于數據產生智能,最后實現持續的數據化運營。對企業而言,基于云架構的軟件體系、商業模式、咨詢服務、運維體系等的同步改變才有可能將數字技術的價值發揮到最大程度。其中,數字平臺正是數字化轉型的關鍵。
華為沃土數字平臺資深架構師董鑫武老師提到,當下構建難、復制難、缺平臺等問題一直讓企業應用軟件開發面臨重重掣肘,阻礙著數字化轉型的步伐。其實,企業需要的是一個能夠向上支持應用快速開發、靈活部署、使能各種業務敏捷創新,向下通過無處不在的聯接做到云、管、端協同優化,實現物理世界與數字世界打通的平臺。
而華為沃土數字平臺,正是幫助企業融合新 ICT,打造數字世界的底座的平臺。
華為沃土數字平臺,是以云為基礎,整合視頻、物聯網、大數據、視頻、GIS 等新技術,基于華為數字化轉型經驗,創造的打通融合各類數據,使能業務協同與敏捷創新,主要包含 ROMA 與 AppEngine 兩個平臺:
ROMA 平臺主要用于廣泛的連接,收集各個廠商的系統數據,打通客戶現網各個煙囪式的結構,達到所有數據共享并可調用的目的。
主要包含三大功能:
一、數據集成:數據集成 FDI ,內置多達 20+ 異構數據源,包括 MySQL、Oracle 等數據源,Mapping 到 SQL Server 等數據源,實現跨數據源的數據集成。可從私有云到公有云,公有云之間等,實現跨云的數據集成,還可在不同地域、不同數據庫中心,內網、外網等之間,實現跨網絡的數據集成。
二、服務集成:ROMA-API Connect 集成網關。將用戶部署在華為云或 Docker 上的服務以 API 方式公開或有限地開放給第三方。面向企業內部引入外部 SaaS 服務,擴展內部應用。
三、消息集成:異步跨云分布消息集成服務。MQS(Message Queue Service),提供易連接,跨網絡隔離、跨數據中心、跨公有云與私有云,彈性擴展低延遲,自由組網,就近接入的異步消息服務。
此外,企業應用軟件開發常常面臨應用從 0~1 構建低效、應用 1~N 難于復制、底層平臺投資大、架構設計難等問題。這時候華為沃土數字平臺中的 AppEngine 應用開發平臺就發揮作用了,AppEngine 應用開發平臺是 SaaS 場景下全在線多租的應用開發和運行平臺,開發者無需安裝任何軟件,Web 注冊即可開通平臺賬號,可以隨時隨地開發、運行企業所需的應用。
AppEngine 應用開發平臺有三層技術架構,集成層集成第三方系統、物聯網平臺等;后端定義對象模型,使用 Flow 來提供對外的 Restful API 接口、Flow&Script 實現后臺業務邏輯,存取 Object 的數據、調用第三方接口;前端提供標準和高級頁面,高級頁面 Widget 通過 Bridge 調用后臺的 Restful API 接口,標準頁面通過拖拽組件,綁定模型。經過三層架構,從定義數據模型到后臺流程邏輯編排、頁面組裝編排到應用的一鍵式發布,可以高效實現您的應用敏捷創新。
微服務的核心思想是圍繞業務能力去拆分和組織服務,各個服務均被獨立部署,通過標準接口進行通信,數據的管理和服務治理也都可實現去中心化。雖然微服務備受推崇,但鮮少有真正能夠拿出來作為可實踐的案例。人們很多時候看到的是這個架構的高峰,卻不知具體如何攀登。高效完成遺留系統重構,提升微服務開發效率是企業向微服務架構轉型的迫切需求,那么有沒有相對簡單且行之有效的路徑?
華為開源軟件部架構師、Apache Committer 馬彬給出了答案——Apache ServiceComb Toolkit 一鍵式微服務開發工具。
Apache ServiceComb 的前身為華為云的微服務引擎 CSE (Cloud Service Engine) 云服務,2017 年由華為云無保留開源代碼,并進入 Apache 基金會孵化,于 2018 年 10 月畢業成為全球首個 Apache 微服務頂級項目,Apache ServiceComb 的愿景是提供一站式的微服務開源解決方案,致力于幫助企業、用戶和開發者將應用輕松微服務化上云,實現對微服務應用的高效運維管理。
今年,Apache ServiceComb 在認真聽取社區用戶的建議和痛點后,孵化并全新發布創新項目 Apache ServiceComb Toolkit 一鍵式微服務開發工具。該工具提供契約、代碼、文檔相互轉換及校驗的能力,幫助用戶一鍵式快速構建基于流行微服務框架和流行編程模型的微服務工程,降低微服務入門成本,使用戶聚焦業務開發,提升遺留系統重構、開發效率。
Apache ServiceComb Toolkit 主體架構包括四層:最底層為微服務開發框架層,提供 ServiceComb、SpringCloud 等 SDK 模版;其次是實現層,包括代碼解析、契約提取、文檔生成、API 校驗等;第三層為統一接口層,接口注冊及管理;最上面為用戶交互層,為用戶提供 Maven/Gradle、命令行工具插件等。
在基于 SpringMVC/POJO/JAX-RS 模型開發的應用中,一鍵提取符合 OpenAPI 規范的服務契約文件。
輸入符合 OpenAPI 規范的服務契約,一鍵生成以 ServiceComb/SpringCloud 為底座,以及以 SpringMVC/POJO/JAX-RS 或 SpringBoot 為開發模型的微服務項目。
校驗應用的實際實現(如數據和服務 API)是否與樣本服務契約描述一致。
輸入符合 OpenAPI 規范的服務契約,一鍵生成 html 等格式的文檔。
未來的成長空間
歡迎來自社區用戶 / 開發者的更多反饋…
Apache ServiceComb Toolkit 工作原理
隨著網絡復雜性的增加,聯接質量難以保證、業務體驗無法實時感知、管理運維排障低效等問題也愈加突出,且網絡管理和維護需要消耗大量的人力、物力。當 AI 浪潮席卷通信領域,通過 AI 提高網絡維護的效率、資源利用率、能源效率,達到全網的自動、自優、自愈、自治成為解決之道。但是當前通信領域 AI 應用的開發卻存在一個普遍的現象,即門檻高、效率低、效果不可控。如何解決這些問題?
華為 NAIE 運營專家戈文敏基于 NAIE 網絡 AI 開發平臺提供了高效可行的解決思路。
華為網絡人工智能引擎 (NAIE),主要基于公有云模式,提供數據治理相關的數據湖服務,以及模型開發相關的模型訓練等服務,涵蓋了網絡 AI 業務中最復雜部分的工作。
其中,數據集服務,解決了大部分開發者缺乏數據的困境,匯聚了華為電信領域合規數據資產和實驗室構造數據樣本,數據覆蓋設備網元、網絡狀態、網絡拓撲、用戶體驗等領域,通過專業治理和標注,為用戶提供全域、高質量的電信網絡數據集。
數據生成服務,基于數據仿真和實驗室模擬網絡,面向開發者提供異常標注數據和仿真數據的在線生成能力,供開發者生成個性化的數據,用于模型訓練和驗證;同時,對于強化訓練,可提供實時交互數據。
數據資產管理服務,主要是把數據采集、集成、建模、分析、標注等數據處理相關的工具以及數據治理模板,以云服務的方式向開發者提供,幫助開發者提升數據治理的效率。
模型訓練服務,為開發者提供電信領域一站式模型開發服務,從數據預處理,到特征提取、模型訓練、模型驗證,本服務為開發者提供開發環境、模擬驗證環境,API 和一系列開發工具,幫助開發者快速高效開發電信領域模型。
模型生成服務,相對模型訓練服務,進一步簡化了模型開發過程,通過預置典型場景的模型,讓開發者只需要輸入符合要求的訓練數據,就可以快速完成模型的訓練和驗證,生成需要的 AI 模型,大幅降低電信 AI 模型開發的技能門檻和周期。
通信模型服務,基于云端的推理框架,用戶只需輸入推理數據就可快速完成推理,推理結果可以用于業務應用的開發及業務診斷。這類服務主要是適用于一些模型泛化通用性強的場景,比如硬盤故障檢測,大部分硬盤故障表象和特征都基本相同,直接輸入 SMART 數據,就可以在線獲取硬盤健康度檢測結果。類似場景還有 KPI 異常檢測、ECA 異常檢測等。
ModelArts 是面向 AI 開發者的一站式開發平臺,提供海量數據預處理及半自動化標注、大規模分布式訓練、自動化模型生成,以及端 - 邊 - 云模型按需部署能力,幫助用戶快速創建和部署模型,管理全周期 AI 工作流。
同時,ModelArts 能夠在 AI 開發全生命周期中,從原始數據、標注數據、訓練作業、算法、模型、推理服務等,提供全流程可視化管理,支持千萬級模型、數據集以及服務等對象的管理,無需人工干預,自動生成溯源圖,選擇任一模型就可以找到對應的數據集、參數、模型部署在哪里。其中最實用的訓練斷點接續功能、訓練結果比對功能,在華為內部開發者中也頗受歡迎。華為開源軟件部 AI 技術專家、華為云 EI 布道師張金衡在現場帶領大家動手體驗了 ModelArts 的自動學習功能。
在數據標注方面,ModelArts 提供多場景支持 7 種類型的數據集標注:圖像分類、物體檢測、聲音分類、語音內容、語音分割、文本分類、命名實體。物體檢測新增支持點、直線、虛線、圓、矩形框、多邊形等多種標簽工具。
ModelArts 提供的智能標注系統,可節省人力提升效率 50%-80%。具體包括:
智能標注:基于主動學習和預置模型,系統邊標邊學,越標越準,標注效率提升 70%
團隊標注:任務分發和質檢策略用以保證標注質量
數據管理:數據增量導入、版本管理、難例管理等
復合篩選:設置多條件標簽進行過濾篩選
在訓練作業部分,ModelArts 提供了 30 余個各領域最優秀最常用的模型,并實現了精度和速度的優化。一鍵訓練模式,開發者僅需配置數據和日志輸出路徑;使用預置模型進行遷移學習;自動超參調優;自動模型壓縮(量化、修剪);零編碼模型訓練優化。
新增的模型轉換功能,可以將已有模型轉換成相應的格式后,應用至不同的芯片類型,如 Ascend 芯片、ARM 或 GPU,來獲得更高的算力。
在模型部署部分, ModelArts 支持一鍵式模型部署到需要的地方,包括在線推理,批量推理以及端側推理。端側設備深度支持華為 HiLens Kit 設備、搭載 Ascend AI 加速芯片的 Atlas 系列硬件,以及商用攝像頭如海雀攝像頭等。同時可以調用生成的 API ,發布到需要的應用。
在 AI 市場方面,ModelArts 的 AI 市場提供了常用數據集,列舉了其他用戶共享的模型、API,開發者可以使用他人分享的信息快速構建模型。同時也可以將自己的 API 或模型發布至 AI 市場,共享知識,提升開發效率。
在自動學習功能中,開發者無需 AI 經驗、無需編碼、無需學習復雜模型,只需要完成三個步驟:上傳數據并標注,自動進行訓練,一鍵完成部署,全程 UI 導向。現場帶領開發者完成了《花卉分類》和《貓狗聲音識別》兩個自動學習實踐。
GaussDB數據庫 GaussDB
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。