圖神經網絡!打開企業盈利的下一個風口
深度學習作為一個相對成熟的AI技術,在過去作為互聯網紅利的出口被廣泛應用在工業級生產和企業的發展中,但隨著數據量的指數級增加和規則型數據類型的限制,深度學習的業務場景拓展變得更加困難。于是,市場開始將目光放在了圖神經網絡(GNN)技術上。圖神經網絡能夠做出更精準的預測,為每一位用戶提供不同的個性化服務,實現精準化營銷,這也是如今互聯網企業進行二次轉型的技術突破口。

圖神經網絡的行業應用
當前的主流深度學習還是CNN、RNN等技術(對應圖像識別、文本挖掘等領域)。但傳統深度學習技術(CNN、RNN)并不能有效的處理結構數據,如金融領域、基因蛋白質網絡、社交網絡、商品推薦等。如果深度學習想要拓展到更多的關系場景,在圖數據上的高階學習采用圖神經網絡(GNN)技術將會取得更佳的效果。
金融網絡:金融行業的數據網絡是由資金交易網絡,社交關系網絡,媒介網絡等構成的天然數據網絡。并且金融網絡作為最有價值的圖網絡之一,圖神經網絡GNN能挖掘出數據中巨大的潛在價值。其中一個模塊是對客戶的篩選,金融用戶的獲客成本高達幾百,但圖神經網絡能夠給予拓撲信息進行特質提取挖掘出最有價值的潛在客戶,深層挖掘客戶潛在需求,幫助金融業務提升效率、提高盈利。另一模塊是風險控制:金融行業內部存在大量風控需求,如反洗錢、防身份欺詐、防車險騙保、防金融欺詐、信用卡偽造交易套現等等。圖神經網絡的拓展性和線上預測能力能夠根據資金交易關系網絡構建動態圖模型,發現個體或群體的異常交易行為,對金融業務中的每一筆業務進行風險預測。
社交網絡:社交網絡是另一個典型的天然圖網絡,根據六度空間理論,我們的社交網絡存在高度重合性。利用圖表征學習和圖嵌入技術,圖神經網絡可以在社交網絡和電商領域等深度網絡結構場景中,構建監督或者半監督框架進行關系挖掘和高匹配度推薦操作,挖掘更多的關系,深層次的發現用戶的興趣,精確用戶的屬性,為用戶提供多樣性的服務。現實場景下提高用戶精準度意味著可以改變過去傳統的高投放的營銷方式,極大降低獲客成本。圖神經網絡對于社交網絡的應用并不僅限于對于用戶(點)的挖掘,還可以對信息的傳播方式進行輿情分析,意見領袖(KOL)的挖掘等等。
知識圖譜:知識圖譜作為圖神經網絡的應用比起技術本身它的場景更為人所熟知。生活中有很多場景都有知識圖譜的身影,如語義搜索引擎,智能客服,生活小助手等。由圖神經網絡構建的知識圖譜可以提供視頻/直播字幕、內容審核、智能客服,保險賠付,醫療圖譜、知識消岐等服務。借助知識圖譜還可以將專屬的行業知識定制成圖網絡,為行業信息進行分析,幫助企業進行轉型升級。
基因網絡:蛋白質的結構和相互作用關系是一個規則性很強的圖網絡,整體的蛋白質網絡異常復雜,節點數量和邊數量非常大,借助圖神經網絡GNN可以對基因蛋白質網絡進行深度挖掘。利用蛋白質的相互作用信息,構建蛋白質相互作用網絡、基因共表達網路推斷蛋白質結構,從基因序列中預測蛋白質的屬性,量化蛋白質和腫瘤異質性。
此外,除了典型的圖結構網絡,圖神經網絡還可以用于組織分析,企業投資等等擁有潛在關系的應用場景。通過圖的可視化和基本指標來分析組織結構,如HR可以根據人力資源圖來判斷公司發展處于哪個階段、結構是否健康、資源傾斜在哪個業務線,分析人力交叉情況、信息流通成本等。
未來,人工智能的運作將會更加接近人腦,圖神經網絡的出現使人工智能開始理解世界,認識世界,而不再只是進行統計擬合。如何讓圖深度學習充分挖掘其應用價值實現高維稀疏數據的應用場景落地,將是在接下來的十年中,同質化的企業進行重新洗牌的關鍵。
以華為云圖神經網絡為例,解析圖深度學習落地的實踐
2019年9月20日華為云全聯接大會上,華為云重磅發布一站式AI開發管理平臺ModelArts2.0。宣布華為云在圖深度學習領域做出突破,華為云圖神經網絡正式落地。
此次ModelArts2.0發布的十余項新特性及服務,包含智能數據篩選、智能數據標注、智能數據分析、多元模型自動搜索、ModelArts SDK、圖神經網絡、強化學習、模型評估/診斷、模型壓縮/轉換、自動難例發現、在線學習等,覆蓋了AI模型的全生命周期。可以看得出來,華為云ModelArts在下一盤很大的棋,圖神經網絡的落地是ModelArts在深度學習領域實現因果推理的一次突破,也是實現自動化AI能力必不可少的一環。
目前圖深度學習依舊是AI領域最前沿的技術之一,想要設計出符合工業生產標準和企業應用的圖深度學習服務仍有許多需要克服的問題。華為云圖神經網絡已經率先做出突破,并在一站式AI開發管理平臺ModelArts完成落地。通過這個項目我們能看到更多圖深度學習領域在落地過程中需要解決的問題以及實現的思路。
華為云圖神經網絡是GES圖引擎與ModelArts聯手打造的新型圖神經網絡技術,通過采用分布式圖計算平臺和深度學習計算平臺并行的方式構建新的架構以此來實現大規模圖神經網絡分析能力。華為云圖神經網絡的架構師表示華為云圖神經網絡(GNN)框架設計原則是:職責分明,架構歸一。對單個算法,將數據預處理、領域采樣等稀疏處理操作下壓到圖引擎;深度學習層則專注于算子的優化,多種GNN算法框架統一化,復用統一的算子。
圖神經網絡的發展難題
分布式圖計算平臺進行大規模圖網絡處理
當前大部分圖神經網絡框架都是在處理靜態圖,這是由于大多數框架是把圖神經網絡算法當做離線計算任務來對待的,離線計算的數據是不變的(靜態),對于每次計算,都需要將完整數據加載一遍,因此不適合處理動態圖。但是圖數據本身卻往往是變化的(動態),算法在運行過程中需要不斷的對圖進行遍歷,然后將圖數據從內存中調用給深度學習進行建模,然后還要在建模過程中進行不斷的回傳,這個問題在小圖上不是很明顯,但是在億級圖網絡中,就會變成嚴重的性能問題,并且遍歷的時間將會呈指數級上升,甚至造成宕機。華為在動態圖方面的主張是,采用自研GES圖引擎來維護圖數據,保證數據可以動態增刪改。同時在一份數據上,執行多種不同的算法,無需重復加載數據;尤其是對于大規模圖來說,能明顯節省端到端時間。目前動態圖的處理仍有可優化的地方,比如動態圖上的數據更改可以當做是增量數據,最佳做法是設計增量算法來對增量數據進行分析,而不是對全量數據進行鄰域采樣、隨機游走、求梯度等操作。對于增量的圖神經網絡算法的研究還比較前沿,尚未形成完備理論。
GES圖引擎目前擁有20多種圖場景算法和大量的圖優化算法,性能上能將億級圖查詢在秒級計算完成。在圖算法上GES圖引擎根據工業和企業需求,集成實現PageRank等二十多種常用算法,應用場景覆蓋城市工業生產、管道監控、商品推薦、社交推薦、項目分析、企業洞察、知識圖譜、金融風險管控、企業IT應用、關系挖掘等多項領域,并支持點查、邊查、屬性過濾等基本查詢將查詢存儲等功能。
以Pixie算法為例,Pixie算法是華為云嘗試了將多元數據構建到同一張圖,并在這個異構圖上配置相應的schema、點邊屬性、權重而設計的算法。Pixie算法是一種全新的實時推薦算法,克服了異構圖的數據獲取和融合問題,支持多請求節點下綜合推薦,能滿足各種復合型、時變、多樣性推薦場景需求;大數據量下,無需預先訓練模型,就能適應數據的動態變化,達到較好的實時推薦效果,可擴展性很強。
新框架解決圖算法與深度學習的高頻交互問題
基于原生圖引擎提升數據處理的效率和統一的算法框架,是當前圖神經網絡平臺研發的重難點,而圖數據的遍歷以及與深度學習的交互會導致圖的運算效率大大降低,這也是圖深度學習一直無法落地的瓶頸之一。
因此,如果圖深度學習想要在性能上有所突破就需要重新設計一個新的GNN框架,以下是AI前線授權得到的華為云圖神經網絡框架圖。
圖1:基于圖引擎的GNN新框架
(1)基于圖引擎的GNN新框架:在ModelArts中的高效神經網絡訓練算子的基礎上,結合GES既有的高性能圖計算框架平臺能力,利用圖引擎高并發、低延時的特點,將GNN的訓練過程高度并行化,如將邊上的跳轉概率估計、頂點鄰域采樣、負樣本構建等等,都化解為每個頂點的局部操作;系統提供了動態調度器,讓這些局部操作可高度并行化執行,就能極大提升系統的總體吞吐量。
(2)多種GNN算法框架統一化:使用統一架構實現了非監督的大規模圖嵌入(例如DeepWalk, Node2Vec)和半監督的圖卷積(例如GCN, GraphSage)等多類GNN算法,降低了系統的維護成本。
圖2: 基于統一GNN架構的圖嵌入與圖卷積計算示意
(3)GNN與圖數據管理一體化:企業級GNN應用通常都不會是一次性計算,而且數據規模也很大,因此這些數據必須要被維護和管理起來。而現有的GNN通常不具這樣的考量,用戶只能另建數據庫維護,計算的時候再把數據整體導出。不僅資源消耗大,也引入數據一致性等諸多問題。而GES采用屬性圖數據模型(Property Graph)和生態兼容的事實標準Gremlin圖查詢語言進行分布式圖數據管理和維護,需要訓練的時候則在圖引擎內本地調用(in situ)各類算子,并發執行,降低了端到端的性能損耗。
研發人員在相同平臺上對比了本產品與多個開源版本在數據預處理、各類采樣方式下的實驗表現(來自華為云內部數據):
圖3: (上)相同平臺上與開源版本在數據預處理、各類采樣方式下的性能對比;(下)系統可擴展性測試結果
華為云圖神經網絡借助ModelArts的高效神經網絡訓練優勢,以及GES的高性能圖計算優勢,大幅度提升了GNN的總體計算效率,以node2vec算法為例,在PPI數據集上,華為云圖神經網絡從采樣到訓練可在2min內完成,較傳統開源實現提升20倍。
精度和資源的權衡
在圖神經網絡模型的精度方面,華為云圖神經網絡通過設置參數調節模型精度,并使用CPU或者GPU來訓練圖神經網絡算法,由于圖數據的特殊性,通常情況下,對于大多數類型的數據,CPU訓練的性能和效果并不遜于GPU。同時針對圖嵌入和圖卷積兩大類算法,華為云圖神經網絡采用了不同的優化方式來降低資源占用率,提高計算性能,圖嵌入類算法利用并行加速和存儲設計進行正采樣和負采樣的優化;圖卷積部分則由于其復雜度高的是layer和layer之間的數學變化,著重優化加速矩陣。華為云方面在未來還會考慮基于自己的人工智能芯片從混合硬件架構進一步提升圖神經網絡的計算性能。
華為云圖神經網絡模型的生命周期管理則依托華為云一站式AI開發管理平臺ModelArts,訓練的模型可以一鍵部署,且整個數據-算法-模型-推理的生命周期可以通過平臺提供的溯源圖查看。
目前,業界要實現大規模的圖神經網絡應用還需要一段時間,但華為云圖神經網絡的落地為后續開發者提供了可供參考的理論經驗和社交,金融,基因,圖像語義等多關系場景的實踐基礎,目前華為云圖神經網絡已在全球機器學習與數據挖掘類學術會議上發表多篇論文,并獲得2019中國人工智能峰會“紫金龍蟠獎”。 圖神經網絡是人工智能實現真正智能化的一步,也是人工智能開始解決深度學習難以處理的關系數據的開端。從現在開始人工智能夠認識并學習世界的復雜關系,相信接下來它會以更多姿態出現在我們的生活中。
https://www.huaweicloud.com/product/modelarts.html
神經網絡
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。