圖神經網絡“借力”華為ModelArts,讓電商平臺營銷推廣更精準
近期,618大戰如火如荼,各商家不僅是銷售額的比拼,更是技術間的較量。開發者關心的是什么?華為云官方揭秘618背后的神秘黑科技:聊聊有哪些厲害的技術,能為618大促保駕護航?能大大提高程序員的幸福感?歡迎點擊我們的黑科技攻略專題,也歡迎留下你的想法哦~~
在每年諸如618、雙十一這樣的線上購物節中,一個個性化且精準的營銷推廣于電商平臺來說如虎添翼,所以如何在海量的商品中為消費者挑選出他們最有可能購買的產品,成為不少電商平臺技術發力的重點。而這背后必不可少的便是AI。
深度學習作為一個相對成熟的AI技術,在過去作為互聯網紅利的出口被廣泛應用在工業級生產和企業的發展中,但隨著數據量的指數級增加和規則型數據類型的限制,深度學習的業務場景拓展變得更加困難。
于是,市場開始將目光放在了圖神經網絡(GNN)技術上。圖神經網絡能夠做出更精準的預測,為每一位用戶提供不同的個性化服務,實現精準化營銷,這也是如今互聯網企業進行二次轉型的技術突破口。
當前,華為云圖神經網絡借助ModelArts的高效神經網絡訓練優勢,正在大幅度提高總體計算效率,讓商品推薦在內的圖神經網絡應用更為成熟。
圖神經網絡的行業應用
當前的主流深度學習還是CNN、RNN等技術(對應圖像識別、文本挖掘等領域)。但傳統深度學習技術(CNN、RNN)并不能有效的處理結構數據,如金融領域、基因蛋白質網絡、社交網絡、商品推薦等。如果深度學習想要拓展到更多的關系場景,在圖數據上的高階學習采用圖神經網絡(GNN)技術將會取得更佳的效果。
以知識圖譜為例,其作為圖神經網絡的應用比起技術本身它的場景更為人所熟知。生活中有很多場景都有知識圖譜的身影,如語義搜索引擎、智能客服、生活小助手等。由圖神經網絡構建的知識圖譜可以提供視頻/直播字幕、內容審核、智能客服、保險賠付、醫療圖譜、知識消岐等服務。借助知識圖譜還可以將專屬的行業知識定制成圖網絡,為行業信息進行分析,幫助企業進行轉型升級。
未來,人工智能的運作將會更加接近人腦,圖神經網絡的出現使人工智能開始理解世界,認識世界,而不再只是進行統計擬合。如何讓圖深度學習充分挖掘其應用價值實現高維稀疏數據的應用場景落地,將是在接下來的十年中,同質化的企業進行重新洗牌的關鍵。
ModelArts2.0標志華為云圖神經網絡落地
在去年的華為云全聯接大會上,華為云重磅發布一站式AI開發管理平臺ModelArts2.0。宣布華為云在圖深度學習領域做出突破,華為云圖神經網絡正式落地。
此次ModelArts2.0發布的十余項新特性及服務,包含智能數據篩選、智能數據標注、智能數據分析、多元模型自動搜索、ModelArts SDK、圖神經網絡、強化學習、模型評估/診斷、模型壓縮/轉換、自動難例發現、在線學習等,覆蓋了AI模型的全生命周期。可以看得出來,華為云ModelArts在下一盤很大的棋,圖神經網絡的落地是ModelArts在深度學習領域實現因果推理的一次突破,也是實現自動化AI能力必不可少的一環。
華為云圖神經網絡是GES圖引擎與ModelArts聯手打造的新型圖神經網絡技術,通過采用分布式圖計算平臺和深度學習計算平臺并行的方式構建新的架構以此來實現大規模圖神經網絡分析能力。
華為云圖神經網絡的架構師表示華為云圖神經網絡(GNN)框架設計原則是:職責分明,架構歸一。對單個算法,將數據預處理、領域采樣等稀疏處理操作下壓到圖引擎;深度學習層則專注于算子的優化,多種GNN算法框架統一化,復用統一的算子。
分布式圖計算平臺進行大規模圖網絡處理
企業級圖深度學習的計算中,圖的規模將會根據業務需求達到百億甚至千億的規模,因此,一個成熟的圖深度學習將會把超大規模的圖網絡的計算交給獨立的分布式圖計算平臺。
當前大部分圖神經網絡框架都是在處理靜態圖,這是由于大多數框架是把圖神經網絡算法當做離線計算任務來對待的,離線計算的數據是不變的(靜態),對于每次計算,都需要將完整數據加載一遍,因此不適合處理動態圖。但是圖數據本身卻往往是變化的(動態),算法在運行過程中需要不斷的對圖進行遍歷,然后將圖數據從內存中調用給深度學習進行建模,然后還要在建模過程中進行不斷的回傳,這個問題在小圖上不是很明顯,但是在億級圖網絡中,就會變成嚴重的性能問題,并且遍歷的時間將會呈指數級上升,甚至造成宕機。
華為在動態圖方面的主張是,采用自研GES圖引擎來維護圖數據,保證數據可以動態增刪改。同時在一份數據上,執行多種不同的算法,無需重復加載數據;尤其是對于大規模圖來說,能明顯節省端到端時間。目前動態圖的處理仍有可優化的地方,比如動態圖上的數據更改可以當做是增量數據,最佳做法是設計增量算法來對增量數據進行分析,而不是對全量數據進行鄰域采樣、隨機游走、求梯度等操作。對于增量的圖神經網絡算法的研究還比較前沿,尚未形成完備理論。
GES圖引擎目前擁有20多種圖場景算法和大量的圖優化算法,性能上能將億級圖查詢在秒級計算完成。在圖算法上GES圖引擎根據工業和企業需求,集成實現PageRank等二十多種常用算法,應用場景覆蓋城市工業生產、管道監控、商品推薦、社交推薦、項目分析、企業洞察、知識圖譜、金融風險管控、企業IT應用、關系挖掘等多項領域,并支持點查、邊查、屬性過濾等基本查詢將查詢存儲等功能。
以Pixie算法為例,Pixie算法是華為云嘗試了將多元數據構建到同一張圖,并在這個異構圖上配置相應的schema、點邊屬性、權重而設計的算法。Pixie算法是一種全新的實時推薦算法,克服了異構圖的數據獲取和融合問題,支持多請求節點下綜合推薦,能滿足各種復合型、時變、多樣性推薦場景需求;大數據量下,無需預先訓練模型,就能適應數據的動態變化,達到較好的實時推薦效果,可擴展性很強。
新框架解決圖算法與深度學習的高頻交互難題
基于原生圖引擎提升數據處理的效率和統一的算法框架,是當前圖神經網絡平臺研發的重難點,而圖數據的遍歷以及與深度學習的交互會導致圖的運算效率大大降低,這也是圖深度學習一直無法落地的瓶頸之一。
因此,如果圖深度學習想要在性能上有所突破就需要重新設計一個新的GNN框架,以下是AI前線授權得到的華為云圖神經網絡框架圖。
圖:基于圖引擎的GNN新框架
(1)基于圖引擎的GNN新框架:在ModelArts中的高效神經網絡訓練算子的基礎上,結合GES既有的高性能圖計算框架平臺能力,利用圖引擎高并發、低延時的特點,將GNN的訓練過程高度并行化,如將邊上的跳轉概率估計、頂點鄰域采樣、負樣本構建等等,都化解為每個頂點的局部操作;系統提供了動態調度器,讓這些局部操作可高度并行化執行,就能極大提升系統的總體吞吐量。
(2)多種GNN算法框架統一化:使用統一架構實現了非監督的大規模圖嵌入(例如DeepWalk, Node2Vec)和半監督的圖卷積(例如GCN, GraphSage)等多類GNN算法,降低了系統的維護成本。
圖:基于統一GNN架構的圖嵌入與圖卷積計算示意
(3)GNN與圖數據管理一體化:企業級GNN應用通常都不會是一次性計算,而且數據規模也很大,因此這些數據必須要被維護和管理起來。而現有的GNN通常不具這樣的考量,用戶只能另建數據庫維護,計算的時候再把數據整體導出。不僅資源消耗大,也引入數據一致性等諸多問題。而GES采用屬性圖數據模型(Property Graph)和生態兼容的事實標準Gremlin圖查詢語言進行分布式圖數據管理和維護,需要訓練的時候則在圖引擎內本地調用(in situ)各類算子,并發執行,降低了端到端的性能損耗。
研發人員在相同平臺上對比了本產品與多個開源版本在數據預處理、各類采樣方式下的實驗表現(來自華為云內部數據):
圖: (上)相同平臺上與開源版本在數據預處理、各類采樣方式下的性能對比;(下)系統可擴展性測試結果
華為云圖神經網絡借助ModelArts的高效神經網絡訓練優勢,以及GES的高性能圖計算優勢,大幅度提升了GNN的總體計算效率,以node2vec算法為例,在PPI數據集上,華為云圖神經網絡從采樣到訓練可在2min內完成,較傳統開源實現提升20倍。
精度和資源的權衡
在圖神經網絡模型的精度方面,華為云圖神經網絡通過設置參數調節模型精度,并使用CPU或者GPU來訓練圖神經網絡算法。
由于圖數據的特殊性,通常情況下,對于大多數類型的數據,CPU訓練的性能和效果并不遜于GPU。同時針對圖嵌入和圖卷積兩大類算法,華為云圖神經網絡采用了不同的優化方式來降低資源占用率,提高計算性能,圖嵌入類算法利用并行加速和存儲設計進行正采樣和負采樣的優化;圖卷積部分則由于其復雜度高的是layer和layer之間的數學變化,著重優化加速矩陣。華為云方面在未來還會考慮基于自己的人工智能芯片從混合硬件架構進一步提升圖神經網絡的計算性能。
華為云圖神經網絡模型的生命周期管理則依托華為云一站式AI開發管理平臺ModelArts,訓練的模型可以一鍵部署,且整個數據-算法-模型-推理的生命周期可以通過平臺提供的溯源圖查看。
目前,業界要實現大規模的圖神經網絡應用還需要一段時間,但華為云圖神經網絡的落地為后續開發者提供了可供參考的理論經驗和社交,金融,基因,圖像語義等多關系場景的實踐基礎,目前華為云圖神經網絡已在全球機器學習與數據挖掘類學術會議上發表多篇論文,并獲得2019中國人工智能峰會“紫金龍蟠獎”。
結語
圖神經網絡是人工智能實現真正智能化的一步,也是人工智能開始解決深度學習難以處理的關系數據的開端。從現在開始人工智能夠認識并學習世界的復雜關系,相信接下來它會以更多姿態出現在我們的生活中,最直觀的便是當下的各種線上電商購物大促中。
華為云618大促,AI開發平臺ModelArts也為用戶準備了1折套餐包,對圖神經網絡或者對AI開發有興趣的同學,大家沖鴨!
EI企業智能 神經網絡
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。