CountVectorizer與TfidfVectorizer的區別
countVectorizer+TfidfTransformer組合使用

countVectorizer會將文本中的詞語轉換為詞頻矩陣,它通過fit_transform函數計算各個詞語出現的次數,通過get_feature_names()可獲得所有文本的關鍵詞,通過toarray()可看到詞頻矩陣的結果。
TfidfTransformer用于統計vectorizer中每個詞語的TFIDF值。
TfidfVectorizer
將原始文檔的集合轉化為tf-idf特性的矩陣,相當于CountVectorizer配合TfidfTransformer使用的效果。
即TfidfVectorizer類將CountVectorizer和TfidfTransformer類封裝在一起。
導入包:
from skleran.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。