亞寵展、全球寵物產業風向標——亞洲寵物展覽會深度解析
1061
2022-05-29
文章目錄
I . 分類概念
II . 分類 ( 離散值 ) 和 預測 ( 連續值 )
III . 分類過程
IV . 分類過程中使用的數據集 ( 訓練集 | 測試集 | 新數據 )
V . 數據預處理
VI . 分類方法評價
VII . 分類算法舉例
VIII . 有監督學習 和 無監督學習
1 . 數據挖掘任務分類 :
數據挖掘任務分為
模型挖掘 和 模式挖掘 ,
其中
模型挖掘
包含
描述建模
和 預測建模
;
2 . 分類任務類型 :
分類 屬于
模型挖掘
任務 , 任務類型是
預測建模
類型 ;
3 . 預測建模 :
根據 已知的數據特征 , 預測未知的數據特征 ; 如 : 數據有 n 個變量 , 已知 n - 1 個變量的值 , 預測未知的那個變量的值 ;
4 . 預測建模 示例 :
根據顧客的 年齡 , 收入 , 是否是學生 , 信用等級 , 預測該顧客是否會購買電腦 ;
1 . 分類 ( 離散值 ) :
先構造出模型 , 然后使用該模型對未知樣本進行
類別判定
; 類別是固定的幾個類 ;
分類使用場景 :
預測 離散數據 , 如 : 信用等級評估 , 疾病診斷 ;
2 . 預測 ( 回歸 | 連續值 ) :
先構造出模型 , 然后使用該模型對未知樣本的
某個值進行估計
; 這個值是一個數值 ;
預測使用場景 :
預測 連續的數據 , 如電影票房 , 國家 GDP 等 ;
1 . 分類過程 :
分類分為
建立模型階段
和
使用模型階段 ;
2 . 建立模型 ( 學習 ) :
又叫學習階段 , 訓練階段 ;
① 訓練集 :
學習訓練階段使用的模型叫訓練集 ;
② 模型表示形式 :
分類規則 , 決策樹 , 數學公式 等 ;
3 . 使用模型 :
先測試模型 , 測試通過開始使用 ;
① 測試模型 :
測試模型的準確性 , 如果認可該準確性 , 就使用該模型對未知新數據進行分類 ;
② 測試集 :
使用 模型 對測試集數據進行分類 , 將分類結果與真實結果進行對比 ;
③ 準確率 :
使用模式分類的結果 , 與測試集真實數據 , 分類正確的比例是 準確率 ;
④ 測試集要求 :
測試集 與 訓練集 不相關 ;
1 . 分類過程中使用的數據集 :
① 訓練集 :
使用訓練集訓練 模型 ;
② 測試集 :
使用測試機驗證 模型 的準確性 , 如果準確就使用該模型 , 如果不準確繼續訓練 ;
③ 新數據 :
使用模型 預測 新數據的未知字段的分類 ;
④ 相同點 :
三種數據集的格式是一樣的 ;
2 . 有監督學習 :
分類屬于有監督的學習 , 有監督學習必須有 訓練模型階段 和 測試模型階段 , 最后才能使用模型 ;
3 . 已知數據 :
通常 訓練集 與 測試集集 是一體的 , 本質是完全相同的 , 將數據隨機分為 訓練集 和 測試集 ;
1 . 數據清洗 : 預處理數據 ;
① 刪除 :
刪除數據的噪音 ;
② 修補 :
修補缺失數據 , 使用常用值 , 平均值 , 統計學中的最大概率出現的值替代缺失數據 ;
2 . 相關分析 :
分類 類型的數據挖掘任務中 , 該步驟叫做 特征選擇 ;
① 主要工作 :
篩選 模型 中使用的 屬性 ( 特征值 ) , 屏蔽 冗余 或 不相關 的 屬性 ( 特征值 ) ; 如 信用等級與人的星座無關 , 此類特征值就可以在模型中進行刪除 ;
② 分類工作 :
數據有 n n n 個 屬性 ( 特征 ) , 已知 n ? 1 n-1 n?1 個特征值 , 預測未知的那個特征值 ;
③ 模型復雜程度 :
選擇使用哪些 屬性 ( 特征 ) 值 進行預測 , 關系到模型的復雜程度 , 模型中使用的特征值個數越多 , 越復雜 ;
④ 特征工程 :
這里引入 特征工程 概念 , 特征處理的工作就是特征工程的核心 ;
3 . 數據轉換 :
① 概括數據 :
將連續值離散化 , 如 100 分滿分 , 低于 60 不及格 , 高于 60 及格 , 這樣就將 0 ~ 100 的數值分成 及格 與 不及格兩個特征 ;
② 數據規范 :
將數據規范化 , 規范單位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 將數據單位都設置成統一單位 ;
分類方法評價標準 :
① 準確性 :
保證性能的前提下 , 越準確越好 ;
② 速度 :
構造模型的速度 ( 訓練 和 測試 時間 ) , 使用模型的速度 ;
③ 容錯性 ( 魯棒性 ) :
能處理數據中的噪音 , 和數據缺失等情況 ;
④ 伸縮性 :
內存中數據可以使用 , 磁盤中的數據也可以使用 ;
⑤ 交互性 :
模型解釋性好 , 易于理解 ;
如深度學習中的神經元網絡不易理解 , 被人稱為煉金術 ;
分類算法示例 :
① 決策樹分類
② 貝葉斯分類
③ 支持向量機
④ 神經元網絡
⑤ K 近鄰分類
1 . 有監督學習 :
明確地分為兩個階段 ; 訓練模型階段 , 使用訓練集數據 ; 使用模型階段 , 預測新數據某個特征 ;
有監督學習舉例 :
分類過程 是典型的有監督學習過程 ;
2 . 無監督學習 :
沒有訓練階段 和 預測階段 的明顯劃分 ;
無監督學習舉例 :
聚類分析 ;
3 . 半監督學習 :
介于 有監督學習 和 無監督學習之間 ;
數據挖掘 機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。