Qcon'2018 全球開發者大會(上海站)參會總結(AI篇)

      網友投稿 782 2022-05-29

      今年是Qcon大會舉辦第九年,參會主題30+,依舊是以互聯網技術為主的拼盤大雜燴式的技術分享,AI、大數據、編程語言、DevOps、互聯網架構、運維等等,幾乎所有現在當紅的技術實踐都有涉及,不管你是從事哪個技術領域,總會找到幾個主題與你的興趣或是工作內容相關,信息量較大,同一時間都是7個議題分享并行,參會最好是按照一條主線進行,否則很容易暈菜了。

      我主要參加的是AI(機器學習、深度學習)實踐相關的場次,雖然Qcon不是一次專門的AI大會,在AI領域的影響力也與NIPS、AAAI等頂會相去甚遠,但Qcon的分享議題一直強調實踐驅動,所有參與的技術分享都是在各公司實際落地并規模上線的技術方案,所以,對于AI的應用,Qcon更接地氣一些,而且分享嘉賓大都來自于阿里、螞蟻金服、新浪等一線互聯網大廠,從中可以洞察到AI在工業界的工程實踐、算法優化等方面的一系列趨勢。

      AI依舊是各大IT會議的“當紅炸子雞”,如果會議主辦方不安排AI相關的議題,那就是跟銀子、跟人氣過不去,這次Qcon和AI相關的議題大概占到了五分之一到六分之一,但凡大廠的AI議題分享,不管有沒有干貨,場場爆滿,找個地站著都困難。

      首先我先分享下參加這次會議對于AI在工業界應用的一些觀點,這些觀點有些是業界已經達成的共識,有些則屬于我的個人看法,不一定正確:

      一、AI+時代來臨,AI技術正在加速往各個行業滲透

      與前兩年提出的“互聯網+”如出一轍,AI+物流、AI+醫療、AI+廣告、AI+汽車……,除開NLP(自然語言處理)和CV(計算機視覺)兩大AI傳統優勢領域外,傳統產業如物流、廣告投放、金融風控等也開始引入AI技術,并且已經取得不錯的效果。例如滿幫集團(中國最大的城際整車物流信息平臺,估值超60億美元)采用深度學習的車貨匹配調度方案將貨源訂單轉化率提升了5個百分點,同時年節省貨車燃油費用860億元。

      二、脫離業務場景談AI都是耍流氓

      以后最缺的可能不是AI算法工程師,而是懂業務的AI工程師。在今后相當長一段時間內,都還是弱人工智能,不存在適用各業務場景的大一統模型和算法,模型效果的好壞,很大程度上取決于你對業務場景理解有多深刻,要知道,從算法角度優化模型是很難的,但從業務角度出發,注重數據質量、特征工程,效果往往是事半功倍。例如同屬于計算機視覺領域,視頻敏感信息過濾和人物行為識別的模型肯定就不一樣,這邊采用CNN的4層金字塔模型可以跑出98%的準確率,照搬拿過來應用到你的業務場景可能就是一塌糊涂。

      三、AI應用級公司的工程同質化

      除開google、英偉達、微軟這些AI巨頭能引領業界趨勢,有能力獨自研發機器學習框架、AI芯片等,絕大多數公司都屬于AI應用級公司,這些公司基本都采用:

      50%AI工程 + 50%算法優化?的模式迭代進行模型的開發和優化。

      這些公司的AI工程都通過自研機器(深度)學習平臺承載,基本都包含數據管理、數據標注、模型管理、GPU/CPU資源管理等功能,深度學習框架不是tensorflow就是caffe,Pytorch、Keras,會上看了幾個公司自研的深度學習平臺,功能和架構都差不多,和我司2012的AIFlow也大體相似。算法優化方面也是基于深度神經網絡的各種變種模型(CNN、RNN、DNN、PNN、DeepFM等等)來進行參數調優、特征提取等工作。

      四、機器學習、深度學習等技術會成為IT從業人員的通用技術棧

      現在越來越多的軟件、應用內嵌AI模型,以后AI模塊可能會成為軟件架構中的“標配”,這些AI模型和業務場景高度匹配,不可能都由AI算法工程師去完成,既懂業務又懂AI的工程類人才是各企業未來最需要的。隨著各深度學習框架對算法的高度抽象、GPU/TPU等硬件性能越來越強對于算力的支撐,AI應用的門檻將會進一步降低,AI模型開發將不再神秘,開發一個AI模型就像開發一個app一樣。

      五、數據將會是公司最重要的資產之一

      在現階段下,AI都是數據喂出來的,這是業界的通識,誰掌握了海量的高質量數據,誰的AI應用就可能占得先機。現在AI應用領先的公司,首先都是一家大數據公司,例如google(數據來源:搜索引擎)、facebook(數據來源:社交網絡)、阿里(數據來源:用戶交易行為)、特斯拉(數據來源:行車數據)等等。公司間的合作可以交換技術、商業模式互補、渠道共享,但除非是嫡系或是全資子公司,數據都是不會開放給外部的,會上上汽集團IT事業部的總經理就明確表示,雖然他們和阿里、華為都有深度合作,但數據是絕不可能共享出去的。

      六、智能化和隱私保護的矛盾會長期存在

      既然數據是AI的“糧食”,那所有廠家明里暗里都在挖空心思收集用戶的數據,不僅手機上的app這樣干,現在只要是能聯網的設備,如智能音響、汽車、手表等IoT設備,都在收集數據。用戶在數據保護方面處于絕對的劣勢,尤其是在中國,除非你完全放棄這些設備,和互聯網、智能化徹底絕緣,但估計也沒幾個人做得到。你的所有行為數據、購買數據等都被廠商掌握后,廠家通過AI,就有可能對你的決策作出影響和牽引,這其實是很可怕的,你在今日頭條、網易上瀏覽新聞,會發現你和別人看的并不一樣,這就是廠商通過AI選擇性推送一些新聞給你,慢慢地改變著你的瀏覽習慣,輿情監控和公眾情緒牽引是每天都在互聯網上發生的AI應用。

      七、AI只是手段,不是目的

      一個公司或是一個產品成功的因素有很多:商業模式、產品質量、用戶體驗等等,AI更多的是在這些基礎上輔助進行改進,解決的更多的是1->100的問題,而不是0->1的問題,一個好的AI應用,對于數據、算力、算法的要求也較高,投入成本較大,不一定適合某些場景,這些場景可能通過自動化或是規則匹配就能解決問題,簡單又高效,只要能達到業務目標,多種手段都可以嘗試。

      以下是我選取了幾個有參考意義的實踐分享:

      1、移動端測AI部署及應用(螞蟻金服)

      現在大部分的AI應用還是在云端/服務端,移動端側主要是做數據收集,并做一些簡單的計算,上傳到云端進行模型訓練和分類判決,再將結果回傳移動端側。但在實時性、數據保護、成本等幾方面來看,存在較大的瓶頸,而移動端如果能部署AI模型,將會有很大的優勢,

      但將模型和計算框架部署到移動端,面臨幾個較大的問題:

      螞蟻金服給出的解決方案是自研的xNN,這是一個專為移動端部署AI的解決方案。

      后臺以xqueeze工具鏈為核心,xqueeze支持對多種深度學習框架模型的壓縮優化,能實現50倍的尺寸壓縮和更快的模型運行能力。

      前臺部署剪裁后的計算框架,并包含模型下發、數據統計等功能,能夠不更新客戶端的情況下,動態下發更新模型,讓用戶做到完全無感知。

      xNN的核心在于xqueeze,它的模型壓縮流程如下,包括神經元剪枝 (neuron pruning)、突觸剪枝 (synapse pruning)、量化 (quantization)、網絡結構變換 (network transform)、自適應Huffman編碼 (adaptive Huffman)、共5個步驟。通過使得權重稀疏化減少權重參數,并使得精度下降控制在一定范圍內甚至不下降,從而達到模型尺寸大幅度減小和更快的模型預測速度。

      會上給出的加速和壓縮效果,模型尺寸已經能縮小到幾百K的水平,運行速度更快,這套解決方案已經在支付寶中全面上線,今年過年時的掃“福”字就是xNN的首次大規模應用。

      2、公路干線運輸的AI應用(滿幫集團)

      這是一個AI和傳統產業融合的實踐,會前我還不知道有滿幫這個公司,上網查了一下,還是個獨角獸公司,已經完成E輪融資,是公路貨運信息平臺國內的No.1。開場還給我們科普了下物流的知識:

      1、物流是中國僅次于房地產的第二大產業;

      2、全國40多個主要城市的公路干線物流占了總物流的80%;

      3、我們購買的農業產品,物流成本占價格的70%以上(終于明白菜農掙不到錢,用戶買菜貴的原因了)

      既然物流這么重要,中國物流又是哪些人在參與呢?答案是數以萬計的個體司機、車隊老板、貨主、物流公司等等,這些小而散的玩家構成了中國公路干線物流的主體。滿幫就是利用互聯網平臺,將貨主和司機匯集起來,促進雙方的訂單達成,減少成本及浪費。

      如何能讓訂單轉化率盡可能高,滿幫在車貨匹配場景引入了深度學習算法,將司機、車、貨、環境等主體的諸多屬性作為特征輸入。識別司機最感興趣、最可能接單的貨源,同樣,也會給貨主推薦最適合拉這批貨的司機。

      從上圖可以看到,輸入層為貨源及司機屬性,中間層為激活函數為Relu的3層金字塔型(神經元一層比一層少)隱層神經網絡,最后的輸出層以softmax作為激活函數,計算出來是該司機接受這些貨源的概率。模型上其實并不復雜,關鍵在于對業務場景的理解和特征選取。

      下圖是AI模型上線后的業務效果:

      3、深度學習在阿里機器翻譯中的應用(阿里巴巴)

      這次分享的實踐主要是在線的商品翻譯場景,阿里現在的跨境業務也很多,需要支持多種語言的商品描述,上百萬的商品,挨個人工翻譯肯定不現實,AI的引入進行機器翻譯順理成章。

      上圖簡單對比了下SMT(基于統計的機器翻譯)和NMT(基于神經網絡的機器翻譯)的差別,業界一般認為,SMT適合翻譯短句,NMT適合翻譯長句。

      商品翻譯主要的4個難點:

      1、 商品標題原文復雜,質量差;

      2、 語言形態復雜;

      3、 譯文干預困難;

      4、 待翻譯內容多樣化;

      對于商品復雜標題的翻譯,如“恒源祥男?士短袖t桖夏季新款純?色翻領休閑商務半袖體恤polo衫男裝”,這樣的標題連中文讀出來都費勁就別說翻譯成英文了,阿里給出的解決方案是結合用戶搜索日志和一定的算法,將原文長標題改為短標題,再進行翻譯。

      該算法提出學習任務包含兩個Sequence to Sequence任務,主任務對商品標題進行壓縮,采用Pointer Network模型,通過attention機制選取原始標題的關鍵字輸出;輔助任務是搜索query生成,由商品原始標題生成搜索query,使得兩個任務對于原始標題中重要信息的關注盡可能一致,這樣就可以從原始標題中保留更有信息量、更容易搜索到的詞。

      某些語言(如俄語、西班牙語)的形態特別豐富,詞表對全部語料的覆蓋度往往不夠,而NMT模型又受限于可用詞表大小,導致很多“未登陸詞”的產生,嚴重影響翻譯質量。

      阿里提出了一種詞干詞尾分別預測的NMT網絡,在類似俄語這種形態豐富的語言中,詞干個數會比詞個數少很多,在NMT的解碼階段,每一個解碼步驟分別預測詞干和詞尾。利用當前step生成的詞干、當前decoder端的hidden state和源端的source context信息,通過一個前饋神經網絡(Feedforward neural network)生成當前step的詞尾,網絡結構如右上圖所示。最后,將生成的詞干和詞尾拼在一起,就是當前的譯文單詞。

      注:上面介紹的兩個技術創新論文已經被AAAI大會收錄,感興趣的同學可以下載相關論文學習

      A Multi-task Learning Approach for Improving Product Title Compression with User Search Log Data(一種利用用戶搜索日志進行多任務學習的商品標題壓縮方法);

      Improved English to Russian Translation by Neural Suffix Prediction(一種基于詞尾預測的提高英俄翻譯質量的方法)

      Qcon'2018 全球開發者大會(上海站)參會總結(AI篇)

      會上,阿里達摩院的專家還介紹了他們在機器翻譯中最新工程實踐,由RNN的Seq2Seq模型轉變為Transformer模型(谷歌提出),能夠獲取更加豐富的語義信息和更高效的訓練速度,Transformer模型也被認為是當前效果最好的機器翻譯模型。

      從阿里給出的對比驗證中看到,Transformer對比RNN seq2seq還是有較大的優勢。

      最后,還介紹了下谷歌最新發表的BERT模型,在機器閱讀理解頂級水平測試SQuAD1.1中全面超越人類,這也是最近NLP領域的最大事件,被認為會開啟NLP的新時代,感興趣的同學可以詳細閱讀下谷歌的論文:BERT:Pre-training of Bidirectional Transformers for Language Understanding

      最后,分享下會上嘉賓給與從事AI工作同事的一些tips:

      1、數據很重要,怎么用好數據更重要

      2、時刻關注學術界工業界的最新進展

      3、親自動手實現代碼

      4、沒有最好的模型,只有最合適的模型

      5、模型不能解決所有問題,可以加入人工

      6、換個角度看問題

      開發者 人工智能 開發者 機器學習 AI

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Linux命令之遠程下載命令:wget
      下一篇:超詳細圖文介紹,華為桌面云解決方案
      相關文章
      亚洲中文无码永久免| 911精品国产亚洲日本美国韩国| 亚洲一区二区三区四区在线观看| 亚洲国产精品专区在线观看| 亚洲综合无码无在线观看| 亚洲色欲或者高潮影院| 亚洲国产精品第一区二区| 91麻豆精品国产自产在线观看亚洲| 成人亚洲国产精品久久| 日韩亚洲综合精品国产| 亚洲日韩在线中文字幕综合| 亚洲av永久无码精品秋霞电影秋| 亚洲欧美一区二区三区日产| 亚洲精品无播放器在线播放| 久久水蜜桃亚洲AV无码精品| 亚洲a∨无码精品色午夜| 婷婷亚洲综合五月天小说在线 | 国产精品亚洲精品爽爽| 亚洲国产av无码精品| 亚洲综合色区在线观看| 伊人久久大香线蕉亚洲| 久久精品亚洲中文字幕无码网站| 亚洲色大成网站www永久一区| 亚洲综合伊人久久综合| 亚洲av永久无码精品古装片| 亚洲成a人片77777老司机| 久久久婷婷五月亚洲97号色| 亚洲欧洲校园自拍都市| 亚洲综合伊人制服丝袜美腿| 亚洲日韩一区精品射精| www.91亚洲| 亚洲熟妇av一区二区三区| 亚洲国产婷婷六月丁香| 亚洲日本中文字幕| 亚洲二区在线视频| 亚洲av永久中文无码精品综合| 亚洲AV无码一区二区三区国产| 亚洲精品国产精品乱码不99 | 亚洲GV天堂GV无码男同| 亚洲欧洲精品成人久久曰影片| 亚洲真人无码永久在线|