機器學習這四個東西,你知道嗎?
分類變量特征提取
分類數據的獨熱編碼方法,分類變量特征提取(One-of-K or One-Hot Encoding):
通過二進制數來表示每個解釋變量的特征
from sklearn.feature_extraction import DictVectorizer onhot_encoder = DictVectorizer() instances=[{'city':'New York'},{'city':'San Francisco'},{'city':'Chapel Hill'}] print (onhot_encoder.fit_transform(instances).toarray()) [[0. 1. 0.] [0. 0. 1.] [1. 0. 0.]]
1
2
3
4
5
6
7
8
9
文字特征提取-詞庫模型
文字模型化最常用方法,可以看成是獨熱編碼的一種擴展,它為每個單詞設值一個特征值。依據是用類似單詞的文章意思也差不多。可以通過有限的編碼信息實現有效的文檔分類和檢索。
CountVectorizer 類會將文檔全部轉換成小寫,然后將文檔詞塊化(tokenize).文檔詞塊化是把句子分割成詞塊(token)或有意義的字母序列的過程。詞塊大多是單詞,但是他們也可能是一些短語,如標點符號和詞綴。
CountVectorizer類通過正則表達式用空格分割句子,然后抽取長度大于等于2的字母序列。
from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'UNC played Duke in basketball', 'Duke lost the basketball game',
1
2
3
機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。