機器學習四個東西,你知道嗎?

      網友投稿 683 2022-05-29

      機器學習這四個東西,你知道嗎?

      分類變量特征提取

      分類數據的獨熱編碼方法,分類變量特征提取(One-of-K or One-Hot Encoding):

      通過二進制數來表示每個解釋變量的特征

      from sklearn.feature_extraction import DictVectorizer onhot_encoder = DictVectorizer() instances=[{'city':'New York'},{'city':'San Francisco'},{'city':'Chapel Hill'}] print (onhot_encoder.fit_transform(instances).toarray()) [[0. 1. 0.] [0. 0. 1.] [1. 0. 0.]]

      1

      2

      3

      4

      5

      6

      7

      8

      9

      文字特征提取-詞庫模型

      文字模型化最常用方法,可以看成是獨熱編碼的一種擴展,它為每個單詞設值一個特征值。依據是用類似單詞的文章意思也差不多。可以通過有限的編碼信息實現有效的文檔分類和檢索。

      CountVectorizer 類會將文檔全部轉換成小寫,然后將文檔詞塊化(tokenize).文檔詞塊化是把句子分割成詞塊(token)或有意義的字母序列的過程。詞塊大多是單詞,但是他們也可能是一些短語,如標點符號和詞綴。

      CountVectorizer類通過正則表達式用空格分割句子,然后抽取長度大于等于2的字母序列。

      from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'UNC played Duke in basketball', 'Duke lost the basketball game',

      1

      2

      3

      機器學習

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:Html個人學習小總結
      下一篇:MongoDB系列之簡介和安裝部署
      相關文章
      亚洲国产精品日韩在线| 亚洲美女视频网站| 久久精品国产亚洲AV蜜臀色欲| 亚洲AV无码精品色午夜果冻不卡| 亚洲中文字幕无码久久综合网| 亚洲熟妇av一区二区三区| 国产亚洲欧洲Aⅴ综合一区 | 亚洲成人免费网站| 亚洲综合在线成人一区| 78成人精品电影在线播放日韩精品电影一区亚洲 | 亚洲国产欧美一区二区三区| 亚洲欧美不卡高清在线| 亚洲免费网站观看视频| 亚洲国产成人无码AV在线| 亚洲乱妇熟女爽到高潮的片| 亚洲国产午夜精品理论片在线播放| 亚洲AV无码一区二区三区牲色| 欧美日韩亚洲精品| 亚洲国产成人精品无码久久久久久综合 | 亚洲专区在线视频| 亚洲国产成人91精品| 亚洲www在线观看| 亚洲乱理伦片在线观看中字| 国产精品亚洲小说专区| 亚洲s码欧洲m码吹潮| 亚洲VA综合VA国产产VA中| 国产亚洲精久久久久久无码AV| 国产亚洲AV夜间福利香蕉149| 亚洲av无码专区在线播放| 日韩精品亚洲人成在线观看 | 亚洲无人区视频大全| 亚洲综合一区国产精品| 五月婷婷亚洲综合| 国产AV无码专区亚洲AV手机麻豆| 亚洲精品亚洲人成人网| 亚洲精品成人网站在线播放| 亚洲男同gay片| 2022中文字字幕久亚洲| 亚洲国产成人片在线观看无码| 99人中文字幕亚洲区| 男人天堂2018亚洲男人天堂|