Leo Yeh's Blog

SAS 人工智慧 (6)

教學目標

初步了解 SAS Viya 分析平台如何解釋機器學習模型的基本概念。

重點概念

首先隨著人工智慧的發展趨勢,機器學習模型的可解釋性變得越來越重要,我們周圍皆是由機器學習提供支持的應用程式,而且我們每天都會受到越來越多機器回答許多從日常生活到拯救生命的問題,像是的使用者可能喜歡看哪一部電視劇、客戶符合貸款的資格、病人得癌症的機率為何、… 等問題。然而資料科學家通常會將重點放在模型的預測準確性上,不是在理解機器學習的預測模型是如何進行?但是如果機器學習模型簡單易懂,那麼我們就會知道修改哪些輸入參數將如何影響預測的結果,並且更進一步為每個預測結果進行解釋,然而隨著機器學習和人工智慧的快速發展,模型變得非常複雜,其中更包括複雜的深度神經網路和不同模型的集合,此時我們將這些複雜模型稱為黑箱模型。

接著所謂黑箱模型雖然有非常準確的預測結果,但是卻因為模型的複雜性導致很難進行模型的解釋,通常黑箱模型中的演算法不透明且難以解釋,並且有時有數千個,甚至數百萬個模型參數,輸入和參數之間沒有一對一的關係,經常使用多個模型的多個參數組合來影響預測。同時機器學習模型為了提高準確率,所以還會需要大量的資料進行模型訓練,此時我們很難弄清楚機器學習模型從大量的資料中學到了什麼,以及哪些資料對於結果的影響非常大。

再來機器學習模型不僅應該要準確率高,而且應該是要能夠進行解釋和能夠被信任,這到底是什麼意思呢?我們需要先回答幾個問題,機器學習模型是否在訓練資料中採用了任何異常的資料?在訓練資料中重要的相關性變數是否正確?在訓練資料時雖然能夠取得較佳的準確率,但是檢測到的相關性是否足夠應用至新的資料呢?當然機器學習模型必須有公平的決定結果,不能夠有歧視性的結果,因為資料可能存文化的偏見,此時我們為了達到公平就必行調整機器學習模型的演算法。此外不同角色針對機器學習模型將會面臨不同的問題,以利弄清楚是否能夠解釋模型、信任模型以及使用模型時是否可以做出公平的決定,當角色為資料科學家時主要需要了解如何改善模型和選擇最佳模型,當角色為使用者時主要需要了解模型結果和判斷模型是否可被信任,當角色為法規相關人員時主要需要了解模型決策是否公平、透明和符合法規。

最後我們要如何機器學習模型的黑箱演算法,其中主要有些解釋機器學習演算法的有效方法,請注意所有這些診斷過程皆必須獨立於特定的機器學習模型的演算法,至於在 SAS Viya 分析平台中有效方法主要有四種,根據不同的問題我們將會選擇適當的方法來解釋模型,分別為:

  1. 了解哪些是最重要的輸入變數?建議使用 Variable Importance 方法。
  2. 了解輸入變數對預測的影響?建議使用 Partial Dependence (PD) 或 Individual Conditional Expectation (ICE) 方法。
  3. 了解特定實體的預測結果?建議使用 Local Interpretable Model-Agnostic Explanation (LIME) 方法。

當我們揭開機器學習模型的黑箱演算法就能夠提高可解釋性和透明度,並且讓預測結果更能夠被信任,至於什麼是可解釋性,所謂可解釋性主要為解釋特定的決策或過程,以及需要了解影響決策結果的主要輸入變數,更進一步從中找出演算法的學習模式、規則和特徵,至於有關 Partial Dependence (PD)Individual Conditional Expectation (ICE)Local Interpretable Model-Agnostic Explanation (LIME) 方法如何運作的基本原理除了官方部落格文章之外,更建議觀看官方影片的教學。

相關資源

⬅️ Go back