收藏 | 可解釋機器學習發展和常見方法!
近年來,可解釋機器學習(IML) 的相關研究蓬勃發展。盡管這個領域才剛剛起步,但是它在回歸建模和基于規則的機器學習方面的相關工作卻始于20世紀60年代。最近,arXiv上的一篇論文簡要介紹了解釋機器學習(IML)領域的歷史,給出了最先進的可解釋方法的概述,并討論了遇到的挑戰。

當機器學習模型用在產品、決策或者研究過程中的時候,“可解釋性”通常是一個決定因素。
可解釋機器學習(Interpretable machine learning ,簡稱 IML)可以用來來發現知識,調試、證明模型及其預測,以及控制和改進模型。
研究人員認為 IML的發展在某些情況下可以認為已經步入了一個新的階段,但仍然存在一些挑戰。
可解釋機器學習(IML)簡史
最近幾年有很多關于可解釋機器學習的相關研究, 但是從數據中學習可解釋模型的歷史由來已久。
線性回歸早在19世紀初就已經被使用,從那以后又發展成各種各樣的回歸分析工具,例如,廣義相加模型(generalized additive models)和彈性網絡(elastic net)等。
這些統計模型背后的哲學意義通常是做出某些分布假設或限制模型的復雜性,并因此強加模型的內在可解釋性。
而在機器學習中,使用的建模方法略有不同。
機器學習算法通常遵循非線性,非參數方法,而不是預先限制模型的復雜性,在該方法中,模型的復雜性通過一個或多個超參數進行控制,并通過交叉驗證進行選擇。這種靈活性通常會導致難以解釋的模型具有良好的預測性能。
雖然機器學習算法通常側重于預測的性能,但關于機器學習的可解釋性的工作已經存在了很多年。隨機森林中內置的特征重要性度量是可解釋機器學習的重要里程碑之一。
深度學習在經歷了很長時間的發展后,終于在2010年的ImageNet中獲勝。
從那以后的幾年,根據Google上“可解釋性機器學習”和“可解釋的AI”這兩個搜索詞的出現頻率,可以大概得出IML領域在2015年才真正起飛。
IML中的常見方法
通常會通過分析模型組件,模型敏感性或替代模型來區分IML方法。
分析可解釋模型的成分
為了分析模型的組成部分,需要將其分解為可以單獨解釋的部分。但是,并不一定需要用戶完全了解該模型。
通常可解釋模型是具有可學習的結構和參數的模型,可以為其分配特定的解釋。在這種情況下,線性回歸模型,決策樹和決策規則被認為是可解釋的。
線性回歸模型可以通過分析組件來解釋:模型結構(特征的加權求和)允許將權重解釋為特征對預測的影響。
分析更復雜模型的成分
研究人員還會分析更復雜的黑盒模型的組成部分。例如,可以通過查找或生成激活的CNN特征圖的圖像來可視化卷積神經網絡(CNN)學習的抽象特征。
對于隨機森林,通過樹的最小深度分布和基尼系數來分析隨機森林中的樹,可以用來量化特征的重要性。
模型成分分析是一個不錯的工具,但是它的缺點是與特定的模型相關, 而且它不能與常用的模型選擇方法很好地結合,通常是通過機器學習搜索很多不同的ML模型進行交叉驗證。
IML發展中遇到的挑戰
統計不確定性
許多 IML 方法,例如:特征重要度的排列組合等,在不量化解釋不確定性的情況下提供了解釋。
模型本身以及其解釋都是根據數據計算的,因此存在不確定性。目前研究正在努力量化解釋的不確定性,例如對于特征重要性的逐層分析相關性等。
因果解釋
理想情況下,模型應反映其潛在現象的真實因果結構,以進行因果解釋。如果在科學中使用IML,則因果解釋通常是建模的目標。
但是大多數統計學習程序僅反映特征之間的相關結構并分析數據的生成過程,而不是其真正的固有結構。這樣的因果結構也將使模型更強大地對抗攻擊,并且在用作決策依據時更有用。
不幸的是,預測性能和因果關系可能是一種相互矛盾的目標。
例如,今天的天氣直接導致明天的天氣,但是我們可能只能使用“濕滑的地面”這個信息,在預測模型中使用“濕滑的地面”來表示明天的天氣很有用,因為它含有今天的天氣的信息,但由于ML模型中缺少了今天的天氣信息,因此不能對其進行因果解釋。
特征依賴
特征之間的依賴引入了歸因和外推問題。例如,當特征之間相互關聯并共享信息時,特征的重要性和作用就變得難以區分。
隨機森林中的相關特征具有較高的重要性,許多基于靈敏度分析的方法會置換特征,當置換后的特征與另一特征具有某種依賴性時,此關聯將斷開,并且所得數據點將外推到分布之外的區域。
ML模型從未在這類組合數據上進行過訓練,并且可能不會在應用程序中遇到類似的數據點。因此,外推可能會引起誤解。
如何向具有不同知識和背景的個人解釋預測結果,以及滿足有關機構或社會層面的可解釋性的需求可能是IML今后的目標。
參考鏈接:
https://arxiv.org/abs/2010.09337
機器學習 神經網絡
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。