Python大規(guī)模機器學(xué)習(xí)》—3 實現(xiàn)快速SVM

      網(wǎng)友投稿 617 2025-04-01

      第3章


      實現(xiàn)快速SVM

      上一章內(nèi)容已接觸了在線學(xué)習(xí),與批量學(xué)習(xí)相比,讀者可能已經(jīng)對其簡單性、有效性和可擴展性感到驚訝。盡管每次只學(xué)習(xí)單個示例,SGD依然能得到很好的估計結(jié)果,就好像使用批處理算法處理存儲在核心存儲器中的所有數(shù)據(jù)一樣,唯一的要求就是數(shù)據(jù)流確實是隨機的(數(shù)據(jù)中無趨勢),并且學(xué)習(xí)器也針對問題進行了很好調(diào)整(學(xué)習(xí)率通常是需要固定的關(guān)鍵參數(shù))。

      無論如何,仔細檢查這些成果,相對于批線性模型,計算結(jié)果仍然具有可比性,但不適用于更復(fù)雜并具有方差高于偏差特征的學(xué)習(xí)器。例如支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)或者bagging和boosting決策樹。

      對于某些問題,比如高而寬但稀疏的數(shù)據(jù),僅僅線性組合就足夠了,因為我們觀察到,具有更多數(shù)據(jù)的簡單算法要勝過以更少數(shù)據(jù)訓(xùn)練的更復(fù)雜的算法。然而,即使使用線性模型并明確地將現(xiàn)有特征映射到更高維數(shù)的特征(使用不同交互順序、多項式展開式和核近似),我們也能加速并改善對響應(yīng)和特征間的復(fù)雜非線性關(guān)系的學(xué)習(xí)。

      因此,本章我們首先介紹線性SVM,將它作為替代線性模型的機器學(xué)習(xí)算法,并采用不同方法解決從數(shù)據(jù)中學(xué)習(xí)的問題。然后,在面對大規(guī)模數(shù)據(jù),尤其是高數(shù)據(jù)(有很多待學(xué)習(xí)案例的數(shù)據(jù)集)時,演示如何利用已有特征創(chuàng)造更豐富的特征,以便更好完成機器學(xué)習(xí)任務(wù)。

      綜上所述,本章討論以下主題:

      介紹SVM的基本概念和數(shù)學(xué)公式并了解其工作原理。

      給出大規(guī)模任務(wù)的基于hinger loss的SGD解決方法,使用與批處理SVM相同的優(yōu)化方法。

      推薦SGD的非線性近似。

      介紹Scikit-learn的SGD算法以外的其他大型在線解決方法。

      3.1? ? ?測試數(shù)據(jù)集

      與前一章一樣,我們將使用來自UCI 機器學(xué)習(xí)存儲庫的數(shù)據(jù)集,具體是共享單車數(shù)據(jù)集(回歸問題)和森林覆蓋類型數(shù)據(jù)(多類別分類問題)。

      如果之前沒有下載或者需要再次下載這兩個數(shù)據(jù)集,需要用到在2.2.1節(jié)定義的兩個函數(shù)unzip_from_UCI和gzip_from_UCI,兩者都提供了與UCI存儲庫的Python連接;只需下載壓縮文件并將其解壓到Python工作目錄中。如果從IPython單元調(diào)用這些函數(shù),將會發(fā)現(xiàn)需要的新目錄和文件正好是IPthyon要求的位置。如果函數(shù)不工作,我們將為你提供直接下載鏈接,下載后將數(shù)據(jù)解壓到當(dāng)前Python工作目錄中,通過在Python接口(IPython或其他IDE)運行以下命令即可發(fā)現(xiàn)該目錄:

      3.1.1????共享單車數(shù)據(jù)集

      該數(shù)據(jù)集包括兩個CSV格式文件,包含2011~2012年在美國華盛頓特區(qū)的共享單車系統(tǒng)內(nèi)每小時和每日租用單車的總數(shù)。提醒一下,數(shù)據(jù)包含有關(guān)出租當(dāng)天的相應(yīng)天氣和季節(jié)信息。下面的代碼使用方便的unzip_from_UCI封裝函數(shù)將數(shù)據(jù)集保存在本地硬盤:

      《Python大規(guī)模機器學(xué)習(xí)》—3 實現(xiàn)快速SVM

      如果運行成功,該代碼會指示CSV文件保存在哪個目錄,并輸出兩個解壓縮文件的名稱。如果失敗,只需從https://archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.zip下載文件,并將day.csv和hour.csv兩個文件解壓到先前在Python工作目錄中創(chuàng)建的bikesharing目錄。

      機器學(xué)習(xí) Python

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。

      上一篇:WPS怎么給幻燈片新增節(jié)? WPS新增幻燈片的教程
      下一篇:如何查找wps未保存文檔(怎么查找wps未保存的文檔)
      相關(guān)文章
      日本红怡院亚洲红怡院最新 | 亚洲国产成人精品女人久久久 | 亚洲高清无码综合性爱视频| 亚洲欧美成人av在线观看| 亚洲免费福利在线视频| 亚洲日本va在线观看| 亚洲AV无码久久久久网站蜜桃| 亚洲熟妇av一区| 亚洲日韩乱码久久久久久| 亚洲白嫩在线观看| 亚洲日本国产乱码va在线观看| 亚洲日本国产精华液| 久久精品国产亚洲AV蜜臀色欲 | 亚洲日韩中文在线精品第一| 久久亚洲精品无码观看不卡| 亚洲中文字幕无码一久久区| 亚洲最大AV网站在线观看| 亚洲精品成人片在线观看精品字幕 | 亚洲精品免费视频| 精品亚洲成a人片在线观看少妇| 337p日本欧洲亚洲大胆色噜噜| 久久亚洲AV无码精品色午夜麻豆 | 亚洲AV网一区二区三区| 亚洲AV蜜桃永久无码精品| 亚洲乱码日产精品a级毛片久久| 亚洲色一色噜一噜噜噜| 国产av无码专区亚洲av果冻传媒| 亚洲精品国产美女久久久| 亚洲成人精品久久| 亚洲精品成人久久| 亚洲 欧洲 自拍 另类 校园| 亚洲精品天堂成人片AV在线播放| 理论亚洲区美一区二区三区| 亚洲情a成黄在线观看| 亚洲精品中文字幕无码蜜桃| 亚洲综合久久综合激情久久| 亚洲免费观看在线视频| 亚洲人av高清无码| 亚洲国产精品日韩| 亚洲不卡av不卡一区二区| 久久久久亚洲av无码专区|