Python大規(guī)模機器學(xué)習(xí)》—1.1.3使用Python進行向上擴展">《Python大規(guī)模機器學(xué)習(xí)》—1.1.3使用Python進行向上擴展
617
2025-04-01
第3章
實現(xiàn)快速SVM
上一章內(nèi)容已接觸了在線學(xué)習(xí),與批量學(xué)習(xí)相比,讀者可能已經(jīng)對其簡單性、有效性和可擴展性感到驚訝。盡管每次只學(xué)習(xí)單個示例,SGD依然能得到很好的估計結(jié)果,就好像使用批處理算法處理存儲在核心存儲器中的所有數(shù)據(jù)一樣,唯一的要求就是數(shù)據(jù)流確實是隨機的(數(shù)據(jù)中無趨勢),并且學(xué)習(xí)器也針對問題進行了很好調(diào)整(學(xué)習(xí)率通常是需要固定的關(guān)鍵參數(shù))。
無論如何,仔細檢查這些成果,相對于批線性模型,計算結(jié)果仍然具有可比性,但不適用于更復(fù)雜并具有方差高于偏差特征的學(xué)習(xí)器。例如支持向量機(SVM)、神經(jīng)網(wǎng)絡(luò)或者bagging和boosting決策樹。
對于某些問題,比如高而寬但稀疏的數(shù)據(jù),僅僅線性組合就足夠了,因為我們觀察到,具有更多數(shù)據(jù)的簡單算法要勝過以更少數(shù)據(jù)訓(xùn)練的更復(fù)雜的算法。然而,即使使用線性模型并明確地將現(xiàn)有特征映射到更高維數(shù)的特征(使用不同交互順序、多項式展開式和核近似),我們也能加速并改善對響應(yīng)和特征間的復(fù)雜非線性關(guān)系的學(xué)習(xí)。
因此,本章我們首先介紹線性SVM,將它作為替代線性模型的機器學(xué)習(xí)算法,并采用不同方法解決從數(shù)據(jù)中學(xué)習(xí)的問題。然后,在面對大規(guī)模數(shù)據(jù),尤其是高數(shù)據(jù)(有很多待學(xué)習(xí)案例的數(shù)據(jù)集)時,演示如何利用已有特征創(chuàng)造更豐富的特征,以便更好完成機器學(xué)習(xí)任務(wù)。
綜上所述,本章討論以下主題:
介紹SVM的基本概念和數(shù)學(xué)公式并了解其工作原理。
給出大規(guī)模任務(wù)的基于hinger loss的SGD解決方法,使用與批處理SVM相同的優(yōu)化方法。
推薦SGD的非線性近似。
介紹Scikit-learn的SGD算法以外的其他大型在線解決方法。
3.1? ? ?測試數(shù)據(jù)集
與前一章一樣,我們將使用來自UCI 機器學(xué)習(xí)存儲庫的數(shù)據(jù)集,具體是共享單車數(shù)據(jù)集(回歸問題)和森林覆蓋類型數(shù)據(jù)(多類別分類問題)。
如果之前沒有下載或者需要再次下載這兩個數(shù)據(jù)集,需要用到在2.2.1節(jié)定義的兩個函數(shù)unzip_from_UCI和gzip_from_UCI,兩者都提供了與UCI存儲庫的Python連接;只需下載壓縮文件并將其解壓到Python工作目錄中。如果從IPython單元調(diào)用這些函數(shù),將會發(fā)現(xiàn)需要的新目錄和文件正好是IPthyon要求的位置。如果函數(shù)不工作,我們將為你提供直接下載鏈接,下載后將數(shù)據(jù)解壓到當(dāng)前Python工作目錄中,通過在Python接口(IPython或其他IDE)運行以下命令即可發(fā)現(xiàn)該目錄:
3.1.1????共享單車數(shù)據(jù)集
該數(shù)據(jù)集包括兩個CSV格式文件,包含2011~2012年在美國華盛頓特區(qū)的共享單車系統(tǒng)內(nèi)每小時和每日租用單車的總數(shù)。提醒一下,數(shù)據(jù)包含有關(guān)出租當(dāng)天的相應(yīng)天氣和季節(jié)信息。下面的代碼使用方便的unzip_from_UCI封裝函數(shù)將數(shù)據(jù)集保存在本地硬盤:
如果運行成功,該代碼會指示CSV文件保存在哪個目錄,并輸出兩個解壓縮文件的名稱。如果失敗,只需從https://archive.ics.uci.edu/ml/machine-learning-databases/00275/Bike-Sharing-Dataset.zip下載文件,并將day.csv和hour.csv兩個文件解壓到先前在Python工作目錄中創(chuàng)建的bikesharing目錄。
機器學(xué)習(xí) Python
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。