人工智能學習記錄_電影推薦系統(tǒng)設計及實現(xiàn)(二)

      網(wǎng)友投稿 960 2025-03-31

      第二章 相關(guān)技術(shù)

      推薦系統(tǒng)概念

      推薦系統(tǒng)(Recommender System, RS)是互聯(lián)網(wǎng)中的服務提供商為了提高企業(yè)的品牌效應、增加客戶數(shù)量、提升服務質(zhì)量、創(chuàng)建更多企業(yè)效益。利用大數(shù)據(jù)技術(shù)和機器學習的相關(guān)技術(shù)、所創(chuàng)造的為完成上述目標而使用一系列工具的統(tǒng)稱、隨著這系列工具不斷開發(fā)優(yōu)化、所使用的技術(shù)的手段也稱為“推薦系統(tǒng)”。

      推薦系統(tǒng)的起源和發(fā)展來源人類自身的思緒模式、人類是一個群體、人類最成功的地方就是可以使用文字和語言相互溝通和交流。所以我們在日常生活工作中遇到需要一個未知的問題需要進行決策時、我們就需要依賴于其它人所提供的建議。去醫(yī)院看病會聽從旁邊的人建議、找某一個特定的專家。去吃飯或者旅游會查看別人對餐館或者景點的評價、最終選擇一個大家都認為不錯的餐館。正是因為這種特定的思緒方式、才促進了推薦系統(tǒng)的產(chǎn)生。隨著互聯(lián)網(wǎng)等新技術(shù)的高速發(fā)展、網(wǎng)絡世界中的數(shù)據(jù)量越來越大、互聯(lián)網(wǎng)用戶在互聯(lián)網(wǎng)查找有效信息的更加困難。推薦系統(tǒng)作為一個工具幫助完成企業(yè)和互聯(lián)網(wǎng)用戶完成精準的對接、推薦系統(tǒng)也成為生活中不可缺少的一部分。

      推薦系統(tǒng)是一種技術(shù)、一系列的工具、在查找信息時可以幫助進行過濾大量無效信息。可以在復雜的物品(商品、文字等統(tǒng)稱)中做出恰當?shù)倪x擇。

      推薦系統(tǒng)分類

      推薦系統(tǒng)在很多行業(yè)中使用、推薦的物品也大不一樣、網(wǎng)絡商店可以給你推薦一件商品(書、飲料等等)、門戶網(wǎng)站可以給你推薦一條資訊等。

      Burke, R? 在2007 年的”Hybrid web recommender system” 的論文中提出了推薦系統(tǒng)的幾種分類

      ?? Content-based(基于內(nèi)容):

      所謂的基于內(nèi)容是指對于所需要推薦物品的屬性(內(nèi)容)、推薦系統(tǒng)根據(jù)物品的屬性進行特征提取、把幾類物品的特征信息進行提取、通過數(shù)學方式進行物品之間的相似性計算,根據(jù)計算的相似度、把相似度高的物品推薦給用戶、例如有一個用戶在JD購買了一個游戲?qū)S脵C械鍵盤、JD就會給購買機械鍵盤的用戶推薦游戲?qū)S檬髽恕I鲜鍪纠f明的就是推薦系統(tǒng)以基于內(nèi)容推薦的一個案例。

      ?? Collaborative filtering(協(xié)同過濾):

      協(xié)助過濾是指通過一個集體的共同特征來推演集體中單個個體的喜好。基本依據(jù)是有一個興趣相似度很高的集體、集體中有N個體對一件物品M已經(jīng)有了評價、那么就可以根據(jù)現(xiàn)在有N個評價來預測集體中Y成員對應物品M的評價。目前對于協(xié)同過濾比比較成功的案例是網(wǎng)絡書店、當你在網(wǎng)絡書店選中一本書的時候、在下面會顯示出購買了這本書的其它人還選擇了那幾本書。

      ?? Demographic(基于人口統(tǒng)計)

      基于人口統(tǒng)計的推薦系統(tǒng)就是以人為單位體、根據(jù)人的屬性(年齡大小、性別、學歷、生活條件、愛好、等等)作為特征來進行劃分為不同的小的集群體、然后針對每一個小的集體進行物品的推薦、這個推薦并不是單獨個體的一個推薦而是一個小集群體共同推薦。2011年在ACM會議中‘王元元‘等人發(fā)表了“基于人口統(tǒng)計的推薦系統(tǒng)在旅游景區(qū)的適用性”、基于人口統(tǒng)計的推薦方法可以很好的克服旅游景區(qū)收集數(shù)據(jù)的稀疏性、在結(jié)合協(xié)同過濾方法、最終的測試結(jié)果有很好的改善。

      ?? Knowledge-based(基于知識)

      基于知識的系統(tǒng)是根據(jù)了特定領(lǐng)域所形成的知識圖譜、計算此物品是否能滿足用戶的需要和偏好進而進行推薦、基于的處理方法是、先根據(jù)知識圖譜訓練出物品的特征向量、推薦系統(tǒng)會估計物品的特征向量和用戶需求問題的特征相向的匹配度、根據(jù)匹配決策是給用戶推薦的物品。

      ?? Community-Based(基于社區(qū))

      這種推薦是依賴于用戶朋友的偏好、在社交網(wǎng)絡中使用的比較多、目前大家經(jīng)常遇到是支付寶中的好友推薦、QQ的好友推薦、微博的共同關(guān)注。顯示而以見相對于陌生人我們更愿意相信朋友的推薦信息、而且朋友之間的熟悉度更高、所以對于信息的推薦、精確度也會高一些。

      深度神經(jīng)網(wǎng)絡與推薦系統(tǒng)

      深度學習是人工智能技術(shù)中的一種、當Google 宣布基于深度學習的AlphaGo在與人的圍棋對戰(zhàn)中獲得勝利的時候、大部人可能才意識到人工智能已經(jīng)不只是存在科學家的實驗室里了、而是已經(jīng)走入到了大眾視野中來。AlphaGo擊敗人類是AI歷史上的一大突破。也是見證了神經(jīng)網(wǎng)絡發(fā)展的一個巔峰。其實深度學習技術(shù)在許多方面已經(jīng)融入到我們生活中來了、小米手機中的AI拍照、科大訊飛的語音識別等等。與傳統(tǒng)的人工智能技術(shù)相比、深度學習是一種無監(jiān)督的模式來進行的、所以不需要花費更多的精力來處理數(shù)據(jù)的特征。深度學習技術(shù)本身具有學習抽象能力的數(shù)據(jù)表示。

      深度學習的爆發(fā)使用得人工智能得以發(fā)展、目前互聯(lián)網(wǎng)企業(yè)大多數(shù)已經(jīng)成立了獨立的AI部門、深度學習在圖像和語音方面獲得的成果、已經(jīng)得到大家的認可。從2015年開始已經(jīng)有很多人開始嘗試讓深度學習和推薦系統(tǒng)進行結(jié)合、以實現(xiàn)更高效、更精確的個性化推薦服務。目前有30多篇不同類型的相關(guān)論文發(fā)布在KDD或者WWW上,目前眾多專家對此課題進行深入研究,國為深度學習有以下幾個特征是之前傳統(tǒng)的人工智能技術(shù)中沒有、而且以于推薦引擎技術(shù)又十分重要的。

      ?? 可以直接從內(nèi)容中提取特征、不需要專屬的行業(yè)人員參加進行特征的提取評估、在對于在線的推薦提高影響時間

      ?? 深度學習是基于神經(jīng)網(wǎng)絡技術(shù)的、對于數(shù)據(jù)的處理、可以通過多層模型、多種函數(shù)反復處理、對于數(shù)據(jù)中的異常或者噪聲、以給以很好的處理。

      ?? 神經(jīng)網(wǎng)絡支持對時間序列的建模處理

      推薦系統(tǒng)的基礎

      推薦系統(tǒng)是一個交叉的學科、它需要使用很多其它方面的技術(shù)、目前是一個大數(shù)據(jù)的時代、推薦系統(tǒng)無論架構(gòu)如何 都脫離不了一個核心的問題數(shù)據(jù)、如果沒有一個完善的數(shù)據(jù)為基礎、推薦系統(tǒng)的其它都是無根之萍、從這方面來看推薦系統(tǒng)可以理解是一個數(shù)據(jù)挖掘的擴展和升華。大數(shù)據(jù)的精細化營銷就可以理解是為一種線下的推薦系統(tǒng)。想要完成一個好的推薦系統(tǒng)必須要優(yōu)先處理好數(shù)據(jù)的問題、

      數(shù)據(jù)收集預處理

      數(shù)據(jù)就是推薦系統(tǒng)中推薦物品屬性的集合、一個統(tǒng)稱它包含了非常多的東西、可以是文字、數(shù)字、圖像等等。數(shù)據(jù)在預處理完成后會得到一個可以進行使用的數(shù)據(jù)集合、后續(xù)的操作步驟全部是在這個數(shù)據(jù)集合上進行的、為了保證后續(xù)系統(tǒng)的操作準確性、我們在此階段最重要的目的是提供一個有質(zhì)量保障的數(shù)據(jù)集。

      數(shù)據(jù)質(zhì)量在數(shù)據(jù)預處理過程核心目標。一般情況下影響數(shù)據(jù)質(zhì)量的因素有以下幾種

      ?? 數(shù)據(jù)源:上游數(shù)據(jù)源不完善或不規(guī)范、導致下游系統(tǒng)受到影響、出現(xiàn)質(zhì)量問題。

      ?? 統(tǒng)一標準:KPC、報表等指標口徑中存在的數(shù)據(jù)質(zhì)量問題、包括指標準確性、一致性及完整性問題

      ?? 系統(tǒng)自身:是指系統(tǒng)在開發(fā)建設、日常運營和維護過程中引發(fā)的數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)模型質(zhì)量問題、系統(tǒng)升級數(shù)據(jù)信息丟失問題、ETL清洗不夠徹底。

      數(shù)據(jù)異常類型:

      ?? 錯誤值 :由于字段類型與實際存放數(shù)據(jù)差異、或錄入信息出錯而導致的數(shù)據(jù)錯誤,例如時間字段存放成了字符類型

      ?? 重復值:數(shù)據(jù)記錄中存在完全一樣的重復記錄、業(yè)務上理解不可能存在的關(guān)鍵信息的出現(xiàn)重復記錄。

      ?? 數(shù)據(jù)不一致:數(shù)據(jù)的記錄是否符合規(guī)范、是否與前后及其它數(shù)據(jù)集合保持統(tǒng)一、數(shù)據(jù)的一致性主要包括數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)邏輯的一致性

      ?? 缺失值:數(shù)據(jù)的缺失主要有記錄的缺失 和記錄中某個字段信息的缺失、兩者都會造成統(tǒng)計結(jié)果的不準確、完整是數(shù)據(jù)質(zhì)量的基礎

      ?? 異常值:數(shù)據(jù)記錄中出現(xiàn)明顯的數(shù)據(jù)偏差或者數(shù)據(jù)錯誤的記錄、例如年齡記錄為200歲

      如上圖(一)所示、我們可以看出來,這個數(shù)據(jù)集中的”ID”信息應該記錄為數(shù)字類型而不是現(xiàn)在的字符類型、而這個“ID”信息中有31個缺失值、這些都屬于數(shù)據(jù)的質(zhì)量問題、在推薦系統(tǒng)的設計的過程、需要根據(jù)推薦系統(tǒng)的設計規(guī)則進行數(shù)據(jù)集的預處理。

      相似度度量方法

      推薦系統(tǒng)里相似度的計算是一個很重要的指標、無論那種算法我都需要根據(jù)相似度的結(jié)果來進行推薦的產(chǎn)生。常見的相似度計算方法有以下幾種:

      歐幾里得距離

      閔可夫斯基距離是歐幾里得距離的擴展

      馬氏距離

      余弦相似度

      皮爾遜相關(guān)性

      推薦系統(tǒng)一般會使用余弦相似度或者皮爾遜相關(guān)性或者使用它們的變異算法

      數(shù)據(jù)特征提取方法

      數(shù)據(jù)集特征:一個數(shù)據(jù)集中有很多的數(shù)據(jù)信息、每個數(shù)據(jù)信息所代表的含義是不一樣的,而推薦系統(tǒng)最終所要產(chǎn)生是一個信息的結(jié)果、例如在本次課題中的電影數(shù)據(jù)集信息中有['Adult', 'belongs_to_collection', 'budget', 'genres', 'homepage', 'id','imdb_id', 'original_language', 'original_title','overview','popularity', 'poster_path', 'production_companies','production_countries', 'release_date', 'revenue', 'runtime','spoken_languages', 'status', 'tagline', 'title', 'video','vote_average', 'vote_count'] ?24個信息,這個24個信息都可以理解為是特征信息、推薦引擎在計算最佳結(jié)果的時候、并不需要對這24個特征信息、全部進行計算、只需要找到相關(guān)或者最有代表的幾個特征信息進行計算就可以了。

      文本信息特征:文本信息特征是指如果一個數(shù)據(jù)集的特征是文本類的、例如電影集中的”O(jiān)verview”信息“Led by Woody, Andy's toys live happily in his room until Andy's birthday brings Buzz Lightyear onto the scene. Afraid of losing his place in Andy's heart, Woody plots against Buzz. But when circumstances separate Buzz and Woody from their owner, the duo eventually learns to put aside their differences.”

      這個信息在使用協(xié)同過濾推薦算法時、是非常重要的一個信息、只是這個是人類可以理解的信息、計算機是無法理解這段話的意思、所在數(shù)據(jù)處理的過程時就需要把這段信息轉(zhuǎn)換為計算機可以進行計算的信息、數(shù)據(jù)的過程就是找出這段話中、最具有代表的幾個詞、這幾個詞就是這個文本中的特征信息。

      在很的情況下、一些特征信息是離散或者格式不一樣的、需要使用一些方法把這個特征信息進行一些轉(zhuǎn)換、有時也需要把這幾個特征信息合并計算一個特征信息。

      標準化和歸一化:數(shù)據(jù)集中的特征信息(整數(shù)型或者浮點型)值會有很大的差別、如果對這個值不做進一步的處理、那么最后計算出來的結(jié)果、可能會存在一些影響。常見的做法是使用Z-Score標準化、使用原始數(shù)據(jù)減去均值再除以標準差。也稱為標準差標準化、計算公式如下:

      離散化處理:有時數(shù)值型特征根據(jù)業(yè)務以及其代表的含義需要進行離散化,離散化擁有以下好處:離散化后的特征對異常數(shù)據(jù)有很強的過濾性,比如一個特征是年齡> 30 為1 ,否則為0 。如果特征沒有經(jīng)過離散化,一個異常數(shù)據(jù)“年齡100 歲”會給模型造成很大的干擾;特征離散化后可以進行特征交叉,特征內(nèi)積乘法運算速度快,進一步引入非線性,提升表達能力,計算結(jié)果方便存儲,容易擴展;特征離散化后,模型會更穩(wěn)定,比如如果對用戶年齡離散化, 20~30 作為一個區(qū)間,不會因為一個用戶年齡長了一歲就變成一個完全不同的人。但是處于區(qū)間相鄰處的樣本會剛好相反,所以如何劃分區(qū)間也非常重要,通常按照是否使用標簽信息可以分為無監(jiān)督離散化和有監(jiān)督離散化

      卡方檢查:它的過程如下:首先將數(shù)值特征的每個不同值看作一個區(qū)間,對每對相鄰區(qū)間計算卡方統(tǒng)計量,將其與由給定的置信水平確定的闊值進行比較,高于闊值則把相鄰區(qū)間進行合井,因為高的卡方統(tǒng)計量表示這兩個相鄰區(qū)間具有相似的類分布,而具有相似類分布的區(qū)間應當進行合并成為一個區(qū)間。合井的過程遞歸地進行,直至計算得到的卡方統(tǒng)計量不再大于闊值。

      樸素貝葉斯和概率方法:

      樸素貝葉斯是一個歸納式學習的概率方法、屬于一般的貝葉斯分類器、這類方法基于之前的觀察數(shù)據(jù)產(chǎn)生一個概率模型。計算公式

      對文檔d分類、選擇概率最高的作為類別

      二個被普通使用的分類模型:多元伯努利事件模型和多項式時間模型二個模型都將文檔看作一個詞庫表V上的向量值、微量中的每個實體表示它在這個文檔中是否出現(xiàn)、因此模型都是損失了關(guān)于詞順的信息、多元伯努利事件模型將詞編碼為一個二元屬性、記錄一個詞出現(xiàn)或者沒有出現(xiàn)、而多項式時間模型計算一個詞在一個文檔中出現(xiàn)的次數(shù)。

      實現(xiàn)樸素貝葉斯的一個關(guān)鍵步驟是估計司的概率P(tk|C),為了使估計對少出現(xiàn)的詞更有健壯性、需要采用一個簡單的事件計數(shù)和的平滑方法修正這個概率、一個很重要的平滑作用就是它避免了在訓練數(shù)據(jù)的某一個類中、一個沒有出現(xiàn)過的詞的概率為0的情況 。

      正如前所說的、特征值有很多個、推薦系統(tǒng)需要從N個特征值選擇取一個或者多個特征值用來進行計算、這個過程稱為特征選擇、常用的特征值選擇方法如下:

      皮爾森相關(guān)系數(shù)

      皮爾森相關(guān)系數(shù)是一種最簡單的、能幫助理解特征和響應變量之間關(guān)系的方法,該方法衡量的是變量之間的線性相關(guān)性,結(jié)果的取值區(qū)間為[- 1, 1], -1 表示完全的負相關(guān)( 這個變量下降,那個變量就會上升) ' +1 表示完全的正相關(guān)。0 表示沒有線性相關(guān)。皮爾森相關(guān)系數(shù)表示兩個變量之間的協(xié)方差與標準差的商.

      距離相關(guān)系數(shù)

      距離相關(guān)系數(shù)是為了克服皮爾森相關(guān)系數(shù)的弱點而產(chǎn)生的。它是基于距離協(xié)方差進行變量間相關(guān)性度量, 它的一個優(yōu)點為變量的大小不是必須一致的,其計算方法如式( 5-4 ) 所示,注意通常使用的值為其平方根。

      下面是基于數(shù)據(jù)集一個測試、目的是找到電影ID的相關(guān)特征的、相關(guān)度。

      數(shù)據(jù)集是經(jīng)過了處理的共有93389行,9列(vote_count:表示一部電影的評價人數(shù)、vote_average:表示電影的一個平均評分)

      在vote_count 和vote_average保持不變的情況下使用“皮爾森相關(guān)系數(shù)”方法進行相關(guān)性的預測。

      可以看出結(jié)果是結(jié)果不是很好、現(xiàn)在對vote_count,vote_average進行特征的處理

      從處理的結(jié)果來看、vote_count和vote_average? 電影ID的相關(guān)性提高了很多。

      此處只是一個示例、在后面的系統(tǒng)設計和部署中、會根據(jù)不同的特征類型和采用的計算方式不同、選擇不同的處理方式、最后選擇不同特征。

      推薦系統(tǒng)的類型

      基于內(nèi)容的推薦系統(tǒng)

      基于內(nèi)容的推薦系統(tǒng)是以用戶以前的愛好來挖掘用戶新的喜歡、利用的是用戶目前喜歡的物品的屬性與需要推薦物品的屬性進行相似度的計算、預測需要推薦物品在用戶層面的喜好度、來進行排序后推薦。基于內(nèi)容推薦的一個是基礎是現(xiàn)在有已經(jīng)有了客戶對一些商品的喜歡的評價、也可以理解是用戶的個人屬性已經(jīng)構(gòu)筑。系統(tǒng)知到了用戶的所需要的一切信息。

      推薦過程有三個階段、每個都是獨立進行的

      內(nèi)容分析器:就是數(shù)據(jù)集預處理的一個過程、收集的用戶數(shù)據(jù)一般是一個離散的、非結(jié)構(gòu)化的數(shù)據(jù)、推薦系統(tǒng)需要針對這個數(shù)據(jù)進行分析處理、形成一個具有特征的、結(jié)構(gòu)化的數(shù)據(jù)集、才能夠在后面的推薦系統(tǒng)中進行使用。

      信息學習器:是收集了用戶偏好的數(shù)據(jù)特征信息、并泛化這些數(shù)據(jù)、從而構(gòu)造用戶特征信息、一般是通過機器學習技術(shù)進行特征提取、特征組合、根據(jù)用戶過住信息中的正面信息的反面信息形成一個用戶的模型、引模型可以進行用戶正負喜歡信息的預測及反饋。

      過濾組件:是用戶個人信息和物品進行匹配、利用個人信息來過濾篩選出物品信息、使用相應的相似度計算來生成一個排名清單、此清單一般是根據(jù)用戶的正面反饋信息來生成的。

      基于內(nèi)容推薦的系統(tǒng)的優(yōu)勢:

      數(shù)據(jù)結(jié)構(gòu)簡單:推薦系統(tǒng)只需要根據(jù)單個用戶矩陣信息進行相似度的計算、不需要考慮其它的因素、只有一個用戶的信息就可以生成一個對應的模型(有可能生成的模型效果并不是很好)。

      物品信息透明:在推薦系統(tǒng)最終的成果物中可以清楚的顯示物品信息的特征和描述、能很好的推薦物品和用戶之前的依賴性是基于那個特征進行推薦的、也可以針對目前現(xiàn)在的物品特征進行明確過濾、增加人為權(quán)限的篩選過濾。例如用戶購買了兒童食品面包、推薦系統(tǒng)根據(jù)用戶目前現(xiàn)在有的信息進行推薦兒童的奶粉、但是目前有一個款奶粉有可能存在質(zhì)量的問題、那推薦系統(tǒng)可以在最終的推薦信息過把此款奶粉進行移除不推薦給用戶。

      新物品增加:基于內(nèi)容的推薦系統(tǒng)不依賴物品的評價特征信息、一個網(wǎng)絡商城目前上線了一個新的產(chǎn)品、這個商品本身的評價特征信息很少、但是推薦系統(tǒng)可以依賴于商品的其它特征信息進行推薦。

      可分析的內(nèi)容有限、隨著網(wǎng)絡安全法的不斷健全、推薦系統(tǒng)只能采用顯示的信息數(shù)據(jù)收集、一部分用戶并不會很在或者說樂意提供一些物品的顯示評價、為了保護用戶的隱私權(quán)、推薦系統(tǒng)并不能隨意采集用戶的一個隱式信息、這對用戶模型的生成是一個很大的難題。對于物品來講、物品的特征信息無論是系統(tǒng)采集還是手動增加標簽都由專業(yè)領(lǐng)域的能力才能完成。對于目前的成千上萬人物品來講是需要一個很大的人力成本才能完成、而且物品是不斷增加的、這個一個持續(xù)消耗的過程。

      基于內(nèi)容推薦的系統(tǒng)的問題

      新鮮感弱:基內(nèi)容的推薦系統(tǒng)、所推薦給用戶都是一些類似的物品、對于使用此推薦的用戶所接收到都是一個類型的物品、如一直持續(xù)下則會對用戶形成審美疲勞。最終會導致用戶放棄這個推薦系統(tǒng)的使用、因為沒有想要生活是一層不變的。

      新用戶的冷啟動問題:基內(nèi)容的推薦系統(tǒng)的前提是取有一定的用戶對物品的評價信息、如果一個網(wǎng)絡商城、新注冊了一個用戶、此時沒有用戶對任何物品的評價信息、基于內(nèi)容的推薦系統(tǒng)是沒有辦法正常工作的。

      物品特征

      真實推薦系統(tǒng)中待推薦的物品往往都會有一些可以描述它的特征。這些特征通常可以分為兩種:結(jié)構(gòu)化的特征與非結(jié)構(gòu)化的特征。所謂結(jié)構(gòu)化特征就是特征的取值限定在某個區(qū)間范圍內(nèi),并且可以按照定長的格式來表示。非結(jié)構(gòu)化的特征往往無法按固定格式表示,最常見的非結(jié)構(gòu)化數(shù)據(jù)就是文章。例如對推薦評價內(nèi)容

      結(jié)構(gòu)化特征信息

      非結(jié)構(gòu)化特征信息

      基于近鄰的推薦系統(tǒng)

      基于近鄰的推薦算法是廣泛用于協(xié)同推薦方法中、原因在于該算法簡單、有效、且能夠提供準確的個性化的推薦、在線商城的出現(xiàn)和發(fā)展給客戶的購買方式產(chǎn)生了重要的影響 、這種方式的購物能讓用戶 接觸到大量的商品和相關(guān)的信息、同時也使用得客戶越來越難選擇到適合自己的商品、推薦系統(tǒng)是對這種信息過載問題的一種重要解決方案。可以以提供 給客戶個性化的商品建議、推薦系統(tǒng)已經(jīng)用于很多的領(lǐng)域中、書籍、音樂、電影、新聞、網(wǎng)頁等。

      基于近鄰的推薦系統(tǒng)的工作方法就是計算一個用戶(或者物品)和其它用戶(物品)的相似度、找到最志同道合的幾個伙伴、然后把伙伴們認為好的東西推薦給用戶。在推薦引擎工作的時候是分為了二個部分、判斷用戶的愛好相同、判斷愛好相同用戶對物品的喜好程度、最后把物品喜好程度進行排序推薦。

      基于近鄰的推薦系統(tǒng)是根據(jù)相同的“口碑”的準則、根據(jù)和用戶興趣相同的人或者根據(jù)其他可信源來評價一個物品、

      用戶名

      天下第一

      人間第二

      武道第一

      文學第二

      地獄十八

      張三

      5

      1

      1

      2

      1

      李四

      1

      5

      2

      5

      3

      王五

      2

      3

      5

      3

      馬六

      4

      3

      5

      3

      1

      如上圖所示:當王五影“人間第二“是推薦系統(tǒng)可以根據(jù)對矩陣中的對比、來確認張三和馬六興趣相同、那么就可以看出來系統(tǒng)預測的評分是不錯的,就會推薦給用戶。

      基于用戶的評價

      基于近鄰用戶 推薦方法預測用戶 U對新物品I的評分、利用和用戶U興趣相近且對物品I作了評分的用戶、這些和用戶U興趣的用戶稱為近鄰。假設W表示用戶U和V的興趣相同的程度、用戶U的K按住、表示為K個與用戶 U相似度W表示的最高的用戶 。

      基于用戶的分類

      前面把描述的預測方法是通過對按住用戶評分進行加權(quán)平均的計算方法、本質(zhì)上是在解決回歸問題,別一個方面 基于近鄰分的分類 則是通過用戶的最近鄰對于評分的投票、找到用戶 對物品最可能的評分、用戶的N個鄰居對物品評分的平均值就可以計做用戶對物品的評分。

      回歸與分類

      選擇基于近鄰回歸或者分類方法很大程度上取決于系統(tǒng)的評分刻度類型。如果一個評分刻度是連續(xù)的、那么回歸方法更加適合、相反如果評分刻度僅僅是一個離散的值、則使用分類方面更加合適。因為標準化方法會使評分映射到連續(xù)類型、這就導致分類方法很難處理此類問題

      基于物品推薦

      基于用戶的推薦方法依賴于和自己興趣相同的用戶來預測一個評分 、而基于物品的推薦方面是通過評分相近的物品來預測的可以理解為是一種基于內(nèi)容的推薦方法

      推薦系統(tǒng)的準度度很大程度上依賴于系統(tǒng)中用戶數(shù)和物品數(shù)之間的比例 、對于用戶數(shù)量大于物品數(shù)據(jù)的環(huán)境、基于物品的推薦方面更加準確(Amazon),同樣用戶數(shù)小于物品數(shù)的系統(tǒng)、則采用基于用戶的近鄰方法效果則更加精確。

      推薦系統(tǒng)的內(nèi)存和計算效率也依賴用戶數(shù)量和物品數(shù)量的比例。用戶數(shù)量遠遠大于物品數(shù)量時、訓練階段計算相似度權(quán)重方面所需要的內(nèi)存和時間要遠遠小于基于用戶的方法、但是在線推薦階段的時間復雜度因為只依賴有效物品數(shù)和近鄰數(shù)的最大值、對于基于用戶還是基于物品都是一樣的

      近鄰方法的要素

      選擇回歸或者分類、以及選擇基于用戶還是基于物品的方法、都會對推薦系統(tǒng)的準確性、效率和整體質(zhì)量產(chǎn)生重要的影響、除此之外還需要考慮以下權(quán)重信息的影響

      當一個用戶對一個物品給以評分時、每個用戶 都有自己的評價準則、有時我們所表達出來并不是自己真實的意思、例如你在購買商品時會告訴你當你給最好的評價時會有一個商品贈送給你、用戶為了得到這個贈送的商品可能會在本身感覺的情況下提高評分。均值中心化和Z-score這兩種通用的標準化機制可以將個人評分標準轉(zhuǎn)換到更一般的整體評分標準中

      均值中心化意思是通一個平均分的比較來決定一個評分為正或者為負、用戶對物品喜好傾向可以直接觀察標準化后的評分值的正負情況、同時評分可以表示用戶對該物品喜好或者厭惡的程度。此時就可以使用前面介紹的Z-Score 標準化方法對數(shù)據(jù)進行處理。

      相似度權(quán)重計算

      相似度權(quán)重在基于近鄰的推薦方法中扮演雙重角色

      可以用于選擇可信的近鄰用于預測評分

      給予不同近鄰在預測中的權(quán)重 、計算相似度權(quán)重是基于近鄰推薦系統(tǒng)中重要一部分、它可以直接影響準確性的性能

      基于協(xié)同過濾的推薦系統(tǒng)

      基于內(nèi)容的推薦方法用戶易于理解,簡單有效,但是它的缺點也十分明顯。它要求內(nèi)容必須能夠抽取出有意義的特征,且要求這些特征內(nèi)容有良好的結(jié)構(gòu)性,推薦精度較低,相同內(nèi)容特征的物品差異性不大。因為以上這些原因,在推薦系統(tǒng)中基于內(nèi)容的推薦往往會和其他方法混合使用。

      協(xié)同過濾推薦算法可以分為兩大類

      一類是基于用戶的協(xié)同過濾;

      一類是基于物品的協(xié)同過濾。

      尿布和啤酒的故事在數(shù)據(jù)挖掘領(lǐng)域十分著名。這個故事的真實性有待考究,但是它切切實實說明了物品相關(guān)性在推薦時的重要性。該故事是說,在美國沃爾瑪連鎖店超市,尿布和啤酒總是擺在一起出售,但是這個奇怪的舉措?yún)s使尿布和啤酒的銷量雙雙增加了。原來,美國的婦女們經(jīng)常會囑咐她們的丈夫下班以后要為孩子買尿布。而丈夫在買完尿布之后又要順手買回自己愛喝的啤酒,因此啤酒和尿布在-起購買的機會還是很多的。是什么讓沃爾瑪發(fā)現(xiàn)了尿布和啤酒之間的關(guān)系呢?正是商家通過對超市一年多的原始交易數(shù)據(jù)進行詳細的分析,才發(fā)現(xiàn)了這對神奇的組合。

      協(xié)同過濾算法能得到一個高速發(fā)展、并占有大量的市場、主要是協(xié)同過濾算法能滿足推薦系統(tǒng)在應用上二個特性:

      快速的反應:在用戶打開站點的幾秒內(nèi)能給出一個推薦物品、不存在冷啟動問題。

      準確的反應:高準確度、協(xié)助過濾可以基于用戶、物品、混合多種方式、相對于其它的推薦引擎來講效果更好。

      基于物品的協(xié)同過濾算法的核心思想,給用戶推薦那些和他們之前喜歡的物品相似的物品、不同于基于內(nèi)容的推薦,基于物品的協(xié)同過濾中的相似主要是利用了用戶行為的集體智慧。

      基于物品的協(xié)同算法首先計算物品之間的相似度, 計算相似度的方法有以下幾種。

      基于共同喜歡物品的用戶列表計算:

      N(i):表示購買物品i的用戶數(shù)

      N(j):表示購買物品j的用戶數(shù)

      分子表示:同時購買物品i和物品j的用戶數(shù)

      此時會存在一個、當出一個熱門商品的時候、會導致計算公式中的分子增加速度過快、會和很多商品的相似度都高、所以我們需要給熱門的商品增加懲罰性

      在計算出物品間的相似度后則可以進行第二步、計算用戶U對物品i的預測分數(shù)

      基于余弦(Cosine-based)的相似度計算:前面一種方法直接使用購買物品人的數(shù)進行了計算、但也是存在一種情況是我購買了但不喜歡、也如果結(jié)果也包含在數(shù)據(jù)集、則會影響最張的效果。所以我們可以把用戶的評價引入到此公式 中進行計算

      基于用戶的協(xié)同過濾(User CF)的原理其實是和基于物品的協(xié)同過濾類似的。所不同的是,基于物品的協(xié)同過濾的原理是用戶U 購買了A 物品,推薦給用戶U 和A 相似的物品B 、C 、D 。而基于用戶的協(xié)同過濾,是先計算用戶U 與其他的用戶的相似度,然后取和U 最相似的幾個用戶,把他們購買過的物品推薦給用戶U

      在計算之前要先對物品進行排序、排序完成后就可以根據(jù)公式進行用戶之間相似度的計算

      公式和之前的一樣、只是參數(shù)換成了、用戶購買物品的數(shù)量、而當是商品購買的用戶數(shù)、包括后面的相似度的計算則是一樣的、同樣存在一個問題、目前網(wǎng)絡商城存在一個很嚴重的刷單行為、我們要考慮一下怎么去把這個信息給篩選下去。

      混合推薦系統(tǒng)

      介紹了幾種主流的推薦方法,它們在推薦時利用的信息和采用的框架各不相同,在各自的領(lǐng)域表現(xiàn)出來的效果也各有千秋。基于內(nèi)容的推薦方法依賴Item 的特征描述,協(xié)同過濾會利用User 和Item 的特定類型的信息轉(zhuǎn)化生成推薦結(jié)果,而社交網(wǎng)絡的推薦算法則根據(jù)User 的相互影響關(guān)系進行推薦。每種方法各有利弊,沒有一種方法利用了數(shù)據(jù)的所有信息,因此,我們希望構(gòu)建一種混合( Hybrid ) 推薦系統(tǒng),來結(jié)合不同算法的優(yōu)點,并克服前面提到的缺陷,以提高推薦系統(tǒng)可用性。

      加權(quán)型混合推薦

      加權(quán)混合推薦即利用不同的推薦算法生成的候選結(jié)果, 進行進一步的加權(quán)組合( Ensemble ) ,生成最終的推薦排序、混合推薦系統(tǒng)的好處是可以利用簡單的方式對不同的推薦結(jié)果進行組合,提高推薦精度,也可以根據(jù)用戶的反饋進行方便的調(diào)整。但是在數(shù)據(jù)稀疏的情況下,相關(guān)的推薦方法無法獲得較好的結(jié)果,該系統(tǒng)往往不能取得較高的提升。同時,由于進行多個方法的計算,系統(tǒng)復雜度和運算負載都較高

      交又型混合推薦

      交叉型推薦技術(shù)的主要動機是保證最終推薦結(jié)果的多樣性。因為不同用戶對同一件物品的著眼點往往各不相同,而不同的推薦算法,生成的結(jié)果往往代表了一類不同的觀察角度所生成的結(jié)果。交叉型推薦技術(shù)將不同推薦算法的生成結(jié)果,按照一定的配比組合在一起,打包后集中呈現(xiàn)給用戶。

      特征組合型混合推薦

      特征組合是將來自不同推薦數(shù)據(jù)源的特征組合,由一種單一的推薦技術(shù)使用。數(shù)據(jù)是推薦系統(tǒng)的基礎,一個完善的推薦系統(tǒng),其數(shù)據(jù)來源也是多種多樣的。從這些數(shù)據(jù)來源中我們可以抽取出不同的基礎特征不同的基礎特征可以預先進行組合或合井,為后續(xù)的推薦算法所使用。

      特征遞增型混合推薦

      特征遞增型混合技術(shù), 即將前一個推薦方法的輸出作為后一個推薦方法的輸入。這種方法上一級產(chǎn)生的并不是直接的推薦結(jié)果,而是為下一級的推薦提供某些特征。一個典型的例子是將聚類分析環(huán)節(jié)作為關(guān)聯(lián)規(guī)則挖掘環(huán)節(jié)的預處理:聚類所提供的類別特征,被用于關(guān)聯(lián)規(guī)則挖掘中,比如對每個聚類分別進行關(guān)聯(lián)規(guī)則挖掘。

      推薦系統(tǒng)的評估

      推薦系統(tǒng)的評估從二方面來理解:

      一、??????? 因推薦系統(tǒng)有多種的實踐方面、多種的算法、多種架構(gòu) 、被推薦的物品也是多種多樣、沒有那一樣架構(gòu)、算法是可以完成所有物品的推薦的、所以針對于不同的物品可以選擇的實踐方面也不同的、針對于同一個物品在不同場景下、不同的算法和架構(gòu)達成的效果也是有很大區(qū)別的、當我們在設計系統(tǒng)時一般會選擇多種架構(gòu)、多種算法、混合使用。在設計階段我們需要評估每個架構(gòu)和算法的效果、選擇混合效果最好的組合。

      二、??????? 推薦系統(tǒng)的生命周期是一個迭代過程、因為推薦系統(tǒng)所服務的對象是人、是一個不確定的因素、我們每個人的想法、愛好、會隨著時間、生活改變而發(fā)生改變。所以推薦系統(tǒng)不是一個固定不變的、在系統(tǒng)運行的過程、我們要接收推薦用戶的顯示反饋和隱式的反饋、針對于反饋結(jié)果來評估轉(zhuǎn)換率、進而發(fā)現(xiàn)需要改進的方案及措施。

      推薦系統(tǒng)可以定義為評估用戶對新物品的反饋、管中評估是基于該系統(tǒng)中歷史數(shù)據(jù)信息、同時推薦那些預測反饋興趣高的物品給客戶、這種基于物品的反饋類在每個系統(tǒng)中表現(xiàn)不一樣分為三種、分級反饋、一元反饋、二元反饋 、分級反饋就是我們最熟悉的評分制、二元反饋是獲取用戶 與物品互動行為、評價信息、好壞的評價信息。一元反饋是指是不是購買了或都瀏覽物品

      準確性是通常用來評估推薦系統(tǒng)效果的主要方法、一般來說、評分集合可以分為用于訓練函數(shù)的訓練集和測試集、測試預測準確性的方法

      平均值絕對誤差

      均方根誤差

      公有云AI平臺

      隨著云計算的不斷發(fā)現(xiàn)、很多業(yè)務已經(jīng)本地機房搬遷到了各種云環(huán)境、之前很多需要自己本地構(gòu)筑的服務、現(xiàn)在已經(jīng)有很多的SaaS服務。最經(jīng)典的是Office365的服務、之前很多企業(yè)都是自己構(gòu)筑本地的Exchange服務器。現(xiàn)在更多的選擇是使用Office365在線的郵箱服務。機器學習作為新一代技術(shù)的代表當然也有很多在線的平臺可以使用

      XX云就提供了機器學習和深度學習的平臺PAI

      ?? 為傳統(tǒng)機器學習提供上百種算法和大規(guī)模分布式計算的服務:

      支持100余種算法組件,覆蓋回歸、分類、聚類、文本分析等算法。提供企業(yè)分布式計算能力,輕松實現(xiàn)大規(guī)模數(shù)據(jù)處理

      ?? 為深度學習客戶提供單機多卡、多機多卡的高性價比資源服務:

      人工智能學習記錄_電影推薦系統(tǒng)設計及實現(xiàn)(二)

      提供GPU單機多卡和多機多卡的計算能力,

      ?? 支持最新的深度學習開源框架:

      支持開源任意版本的深度學習框架,并提供阿里云深度優(yōu)化的Tensorflow,性能與速度更佳

      ?? 幫助開發(fā)者和企業(yè)客戶彈性擴縮計算資源,輕松實現(xiàn)在線預測服務:

      AutoML引擎提供模型訓練參數(shù)調(diào)優(yōu)服務,在最大限度上減少機器學習業(yè)務搭建成本

      人工智能

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔相應法律責任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:怎么取消組合(excel怎么取消組合)
      下一篇:怎么刪掉不要后面的頁數(shù)(怎么把頁數(shù)刪除)
      相關(guān)文章
      亚洲日韩AV无码一区二区三区人| 久久国产亚洲精品无码| 18gay台湾男同亚洲男同| 国产成人麻豆亚洲综合无码精品| 亚洲AV无码一区二区大桥未久| 亚洲一区二区三区乱码在线欧洲| 亚洲国产精品线观看不卡| 亚洲精品综合一二三区在线 | 国产成人精品亚洲2020| 亚洲熟妇无码爱v在线观看| 久久亚洲AV成人无码电影| 亚洲国产日韩一区高清在线| 亚洲AV无码精品色午夜在线观看| 国产亚洲成av人片在线观看| 国产精品亚洲精品日韩已满| 亚洲精品亚洲人成在线观看| 亚洲国产精品无码久久久不卡| 亚洲av中文无码乱人伦在线播放| 亚洲不卡中文字幕无码| 久久精品国产亚洲一区二区| 精品国产_亚洲人成在线高清| 好看的电影网站亚洲一区| 亚洲va久久久噜噜噜久久天堂| 亚洲处破女AV日韩精品| 香蕉蕉亚亚洲aav综合| 久久久久久久亚洲Av无码| 亚洲视频一区二区在线观看| 亚洲黄色一级毛片| 亚洲午夜电影一区二区三区| 国产成人亚洲精品| 亚洲国产精品久久久久秋霞小| 亚洲AV第一成肉网| 亚洲 国产 图片| 亚洲乱码中文字幕久久孕妇黑人| 亚洲Av无码精品色午夜| 亚洲色图黄色小说| 亚洲精品无AMM毛片| 亚洲午夜福利精品久久| 人人狠狠综合久久亚洲88| 亚洲国产精品婷婷久久| 亚洲乱码中文字幕小综合|