【王喆-推薦系統】開篇詞
這個系列是學習王喆的【深度學習推薦系統實戰】時做的筆記和自己的學習總結。

文章目錄
零、一個栗子的引入
一、學習目標和要求
1.學習目標
2.課前要求
二、課程體系
1.基礎架構篇
2.特征工程篇
3.線上服務篇
4.推薦模型篇
5.效果評估篇
6.前沿拓展篇
三、小結
Reference
零、一個栗子的引入
先從一個栗子入手,2019 年,阿里著名的千人千面系統驅動了天貓“雙 11”2684 億元的成交額。假設我們通過改進天貓的商品推薦功能,讓平臺整體的轉化率提升 1%,那么在 2684 億元成交額的基礎上,我們就能再增加 26.84 億元。 也就是說,推薦工程師僅通過優化推薦技術,就創造了 26.84 億元的價值。這無疑是這個職位最大的魅力所在。
2013 年,百度率先在廣告系統中應用了深度學習,2015 到 2020 年,阿里提出并應用了從 MLR 到 DIEN 等一系列的深度學習模型。國外的互聯網巨頭也不逞多讓,從最早的 Google 的 Word2vec,到 2015 年 YouTube 的深度學習推薦系統,再到之后的 Facebook、Amazon、微軟等等,幾乎所有頭部公司的成功應用,讓深度學習如后浪般席卷了推薦系統業界,將傳統的推薦模型徹底取代。
再或者說,我們最熟悉的天貓淘寶的雙十一活動。
一、學習目標和要求
1.學習目標
在所有業界巨頭的推薦引擎都由深度學習驅動的今天,作為一名推薦系統從業者,我們不應該止步于:
(1)不能滿足于繼續使用協同過濾、矩陣分解這類傳統方法,而應該加深對深度學習模型的理解;加強對大數據平臺的熟悉程度,培養結合業務和模型的技術直覺,提高我們整體的技術格局。
(2)王喆大佬之前在硅谷擔任推薦算法架構師,團隊踩過很多坑,其中他說最寶貴的一點: 只有建立起深度學習推薦系統的知識體系,從系統的層面考慮問題,我們才能夠實現整體效果上的優化。
(3)最現實的問題是,企業的一些推薦、廣告、搜索算法部分在招聘時,更喜歡動手能力強、有實習經歷、有業界項目經驗的(所以即使可能不放實習,卑微讀研生就應該多做項目,提交到github上!)。
(4)很多師兄師姐也確實說過。。算法工程師知識更新很快,一不小心就處于淘汰的邊緣,王喆大佬說人才的分布都是金字塔式的,與其抱怨,不如提高自己的知識儲備、工程能力和技術視野。
2.課前要求
(1)有一定編程基礎;(2)有基本的機器學習概念知識。
自己將會學習的資料:
(1)東北大學的字節大佬github推薦系統項目:
https://github.com/zhongqiangwu960812/AI-RecommenderSystem還有強哥的博客。
(2)王喆大佬的書《深度學習推薦系統》,注意書中的勘誤。
(3)推薦算法的論文:
1.盤一盤推薦系統里值得一讀的那些論文
2.從200多篇頂會論文看推薦系統前沿方向與最新進展
(4)動手搭建項目,像之前的京東NLP項目一樣的工業級項目(嘗試)。
(5)王喆大佬網站:http://wzhe.me/(有書中說的paper)
(6)推薦系統是否進入圖神經網絡時代?,一篇綜述
二、課程體系
1.基礎架構篇
(1)講解我們要從 0 開始實現的推薦系統,Sparrow RecSys 的主要功能和技術架構。由于缺少工業級的實驗環境,Sparrow RecSys 不可能是一個真正的工業級推薦系統,但是它的每一行代碼都是嚴謹的,其中的每個方法都是經過業界驗證的主流方法。
(2)還會使用到 Spark、Flink、TensorFlow 這些業界目前最流行的機器學習和大數據框架
2.特征工程篇
(1)討論推薦系統會用到的特征,以及主要的特征處理方式,并且把它們都實踐在 Spark 上。
(2)講解深度學習中非常流行的 Embedding、Graph Embedding 技術。特征工程是在準備食材。利用學到的 Embedding 方法,來實現 Sparrow Recsys 中的相似電影推薦功能,在實踐中快速成長起來。
3.線上服務篇
(1)一個工業級推薦系統和實驗室 Demo 的最大區別就在于線上服務部分。我們要搭建一個推薦服務器,它包括了服務器、存儲、緩存、模型服務等相關知識。
(2)初步掌握 Jetty Server、Spark、Redis,這些工程領域的核心技能。
4.推薦模型篇
(1)學習深度學習推薦模型的原理和實現方法,主要包括 Embedding+MLP 、Wide&Deep、PNN 等深度學習模型的架構和 TensorFlow 實現
(2)注意力機制、序列模型、增強學習等相關領域的前沿進展。
5.效果評估篇
(1)學習效果評估的主要方法和指標。
(2)對一個成熟的推薦系統來說,還需要建立起包括線下評估、線上 AB 測試、評估反饋閉環等整套的評估體系,真正能夠用業界的方法而不是實驗室的指標來評價一個推薦系統。
6.前沿拓展篇
講解 YouTube、阿里巴巴、微軟、Pinterest 等一線公司的深度學習應用,幫助你追蹤業界發展的最新趨勢,并且找到自己技術道路上的方向。
三、小結
不要老想著一蹴而就,推薦系統的每個模塊都有著極深的技術縱深,不管是 TensorFlow 還是 Spark,還是 Redis、Flink,它們中的每一個都需要我們持續性的鉆研。這里我貼加一張之前看到過的58同城的推薦系統整體架構:
毛小偉大佬對上圖的總結:
數據層:前后端通過埋點記錄用戶日志數據,KaFka消息隊列將數據存入HDFS大數據文件系統中。這一層技術棧是Hadoop、Spark大數據組件
策略層:
平常所說的推薦算法就是指這一層,需要重點掌握
。首先是召回,主要根據用戶部分特征,從海量的物品庫里,快速找回一小部分用戶潛在感興趣的物品,然后交給排序環節,排序環節可以融入較多特征,使用復雜模型,來精準地做個性化推薦。召回強調快,排序強調準。這一塊重點掌握模型:
協同過濾、矩陣分解、FM、Embeding、Wide&Deep及其改進
。
應用層:根據業務需求而不同。比如:廣告點擊、商品推薦、短視頻推薦。
《深度學習推薦系統》,這本書高屋建瓴的介紹了推薦系統整體架構,發展歷史以及未來趨勢,各種推薦模型的演化之路,很適合前期用來搭建推薦系統知識框架。但是具體的模型并沒有深入講解,還得自己去看論文。這個也很正常,作為算法人員,經常看論文是必須的,就像開發人員要時常看官方技術文檔。
Reference
(1)《深度學習推薦系統實戰》——王喆
(2)知乎:如何評價「深度學習推薦系統」這本書
推薦系統 深度學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。