excel求和與計算器求和相差0.01(excel求和0.00)
905
2022-05-30
之前我們討論的PCA、ICA也好,對樣本數據來言,可以是沒有類別標簽y的。回想我們做回歸時,如果特征太多,那么會產生不相關特征引入、過度擬合等問題。我們可以使用PCA來降維,但PCA沒有將類別標簽考慮進去,屬于無監督的。
比如回到上次提出的文檔中含有“learn”和“study”的問題,使用PCA后,也許可以將這兩個特征合并為一個,降了維度。但假設我們的類別標簽y是判斷這篇文章的topic是不是有關學習方面的。那么這兩個特征對y幾乎沒什么影響,完全可以去除。
再舉一個例子,假設我們對一張100*100像素的圖片做人臉識別,每個像素是一個特征,那么會有10000個特征,而對應的類別標簽y僅僅是0/1值,1代表是人臉。這么多特征不僅訓練復雜,而且不必要特征對結果會帶來不可預知的影響,但我們想得到降維后的一些最佳特征(與y關系最密切的),怎么辦呢?
回顧我們之前的logistic回歸方法,給定m個n維特征的訓練樣例
機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。