數據挖掘分類任務簡介 ( 分類概念 | 分類和預測 | 分類過程 | 訓練集 | 測試集 | 數據預處理 | 有監督學習 )

      網友投稿 1061 2022-05-29

      文章目錄

      I . 分類概念

      II . 分類 ( 離散值 ) 和 預測 ( 連續值 )

      III . 分類過程

      IV . 分類過程中使用的數據集 ( 訓練集 | 測試集 | 新數據 )

      V . 數據預處理

      VI . 分類方法評價

      VII . 分類算法舉例

      VIII . 有監督學習 和 無監督學習

      1 . 數據挖掘任務分類 :

      數據挖掘任務分為

      模型挖掘 和 模式挖掘 ,

      其中

      模型挖掘

      包含

      描述建模

      和 預測建模

      ;

      2 . 分類任務類型 :

      分類 屬于

      模型挖掘

      任務 , 任務類型是

      預測建模

      類型 ;

      3 . 預測建模 :

      根據 已知的數據特征 , 預測未知的數據特征 ; 如 : 數據有 n 個變量 , 已知 n - 1 個變量的值 , 預測未知的那個變量的值 ;

      4 . 預測建模 示例 :

      根據顧客的 年齡 , 收入 , 是否是學生 , 信用等級 , 預測該顧客是否會購買電腦 ;

      1 . 分類 ( 離散值 ) :

      先構造出模型 , 然后使用該模型對未知樣本進行

      類別判定

      ; 類別是固定的幾個類 ;

      分類使用場景 :

      預測 離散數據 , 如 : 信用等級評估 , 疾病診斷 ;

      2 . 預測 ( 回歸 | 連續值 ) :

      先構造出模型 , 然后使用該模型對未知樣本的

      某個值進行估計

      ; 這個值是一個數值 ;

      預測使用場景 :

      預測 連續的數據 , 如電影票房 , 國家 GDP 等 ;

      1 . 分類過程 :

      分類分為

      建立模型階段

      使用模型階段 ;

      2 . 建立模型 ( 學習 ) :

      又叫學習階段 , 訓練階段 ;

      ① 訓練集 :

      學習訓練階段使用的模型叫訓練集 ;

      ② 模型表示形式 :

      分類規則 , 決策樹 , 數學公式 等 ;

      3 . 使用模型 :

      先測試模型 , 測試通過開始使用 ;

      ① 測試模型 :

      測試模型的準確性 , 如果認可該準確性 , 就使用該模型對未知新數據進行分類 ;

      ② 測試集 :

      使用 模型 對測試集數據進行分類 , 將分類結果與真實結果進行對比 ;

      ③ 準確率 :

      使用模式分類的結果 , 與測試集真實數據 , 分類正確的比例是 準確率 ;

      ④ 測試集要求 :

      測試集 與 訓練集 不相關 ;

      1 . 分類過程中使用的數據集 :

      ① 訓練集 :

      使用訓練集訓練 模型 ;

      ② 測試集 :

      使用測試機驗證 模型 的準確性 , 如果準確就使用該模型 , 如果不準確繼續訓練 ;

      ③ 新數據 :

      使用模型 預測 新數據的未知字段的分類 ;

      ④ 相同點 :

      三種數據集的格式是一樣的 ;

      2 . 有監督學習 :

      分類屬于有監督的學習 , 有監督學習必須有 訓練模型階段 和 測試模型階段 , 最后才能使用模型 ;

      【數據挖掘】分類任務簡介 ( 分類概念 | 分類和預測 | 分類過程 | 訓練集 | 測試集 | 數據預處理 | 有監督學習 )

      3 . 已知數據 :

      通常 訓練集 與 測試集集 是一體的 , 本質是完全相同的 , 將數據隨機分為 訓練集 和 測試集 ;

      1 . 數據清洗 : 預處理數據 ;

      ① 刪除 :

      刪除數據的噪音 ;

      ② 修補 :

      修補缺失數據 , 使用常用值 , 平均值 , 統計學中的最大概率出現的值替代缺失數據 ;

      2 . 相關分析 :

      分類 類型的數據挖掘任務中 , 該步驟叫做 特征選擇 ;

      ① 主要工作 :

      篩選 模型 中使用的 屬性 ( 特征值 ) , 屏蔽 冗余 或 不相關 的 屬性 ( 特征值 ) ; 如 信用等級與人的星座無關 , 此類特征值就可以在模型中進行刪除 ;

      ② 分類工作 :

      數據有 n n n 個 屬性 ( 特征 ) , 已知 n ? 1 n-1 n?1 個特征值 , 預測未知的那個特征值 ;

      ③ 模型復雜程度 :

      選擇使用哪些 屬性 ( 特征 ) 值 進行預測 , 關系到模型的復雜程度 , 模型中使用的特征值個數越多 , 越復雜 ;

      ④ 特征工程 :

      這里引入 特征工程 概念 , 特征處理的工作就是特征工程的核心 ;

      3 . 數據轉換 :

      ① 概括數據 :

      將連續值離散化 , 如 100 分滿分 , 低于 60 不及格 , 高于 60 及格 , 這樣就將 0 ~ 100 的數值分成 及格 與 不及格兩個特征 ;

      ② 數據規范 :

      將數據規范化 , 規范單位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 將數據單位都設置成統一單位 ;

      分類方法評價標準 :

      ① 準確性 :

      保證性能的前提下 , 越準確越好 ;

      ② 速度 :

      構造模型的速度 ( 訓練 和 測試 時間 ) , 使用模型的速度 ;

      ③ 容錯性 ( 魯棒性 ) :

      能處理數據中的噪音 , 和數據缺失等情況 ;

      ④ 伸縮性 :

      內存中數據可以使用 , 磁盤中的數據也可以使用 ;

      ⑤ 交互性 :

      模型解釋性好 , 易于理解 ;

      如深度學習中的神經元網絡不易理解 , 被人稱為煉金術 ;

      分類算法示例 :

      ① 決策樹分類

      ② 貝葉斯分類

      ③ 支持向量機

      ④ 神經元網絡

      ⑤ K 近鄰分類

      1 . 有監督學習 :

      明確地分為兩個階段 ; 訓練模型階段 , 使用訓練集數據 ; 使用模型階段 , 預測新數據某個特征 ;

      有監督學習舉例 :

      分類過程 是典型的有監督學習過程 ;

      2 . 無監督學習 :

      沒有訓練階段 和 預測階段 的明顯劃分 ;

      無監督學習舉例 :

      聚類分析 ;

      3 . 半監督學習 :

      介于 有監督學習 和 無監督學習之間 ;

      數據挖掘 機器學習

      版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。

      上一篇:最近一年語義SLAM有哪些代表性工作?
      下一篇:Tomcat啟用HTTPS協議配置過程
      相關文章
      久久99国产亚洲精品观看| 精品久久久久久亚洲中文字幕 | 亚洲欧美第一成人网站7777| 亚洲毛片免费观看| 亚洲国产高清视频| 亚洲AV无码成人精品区天堂| 亚洲国产精品无码专区在线观看| 久久99亚洲综合精品首页| AV在线亚洲男人的天堂| av在线亚洲欧洲日产一区二区| 亚洲精品无码专区久久同性男| 亚洲欧洲自拍拍偷精品 美利坚| 亚洲国产精品第一区二区三区| 大胆亚洲人体视频| 亚洲Av无码乱码在线znlu| 亚洲国产午夜福利在线播放| 亚洲国产精品碰碰| 久久99亚洲综合精品首页| 亚洲一区二区三区自拍公司| 亚洲精品无码鲁网中文电影| 亚洲国产精品无码久久SM | 亚洲精品国产品国语在线| 亚洲精品乱码久久久久久按摩| 人人狠狠综合久久亚洲88| 久久综合日韩亚洲精品色| 亚洲av永久无码精品国产精品| 久久久久亚洲av无码尤物| 老色鬼久久亚洲AV综合| 亚洲福利一区二区三区| 亚洲一区电影在线观看| 亚洲中文字幕无码中文字| 亚洲欧美第一成人网站7777| 亚洲AV中文无码乱人伦| 亚洲综合国产精品第一页| 亚洲日本va在线视频观看| 亚洲精品福利视频| 亚洲成人免费网站| 亚洲乱码中文论理电影| 亚洲乱亚洲乱妇无码| 亚洲av无码乱码在线观看野外| 久久久久亚洲AV成人网人人软件|