《數據科學與分析:Python語言實現》 —1.4.6 數據科學:一個迭代過程
1.4.6 數據科學:一個迭代過程
機器學習模型已經在干凈的數據上運行的簡單事實并不意味著數據科學家的工作已經完成并且塵埃落定。相反,需要仔細監控模型的有效性,因為結果取決于提供給模型的數據。一個簡單的例子就是garbage-in-garbage-out(若輸入錯誤數據,則輸出亦為錯誤數據)。類似地,具有各種新特征的任何新數據都可能降低初始模型的準確性,因此有必要調整參數或獲取新數據。
此外,即使最開始存在一個不需要改變的模型,但隨著新的和后續的問題在數據科學分析過程中不斷涌現,工作流程逐漸向上螺旋盤升,因此需要不斷迭代改進以提供新的洞察力。
我想用一些數據科學家團隊及相關負責人應該始終牢記的問題來結束本章:
使用什么數據?為什么?
數據從何而來,誰擁有它們?
是否使用了整個數據集?這個集合能代表整個樣本空間嗎?
有異常值嗎?分析中考慮過它們嗎?
在應用模型/算法時做出了什么假設條件?它們容易放松/加強嗎?
模型的結果對流程/業務/產品意味著什么?
python 機器學習 Python
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。