SAS 機器學習 (7)

教學目標

初步了解 SAS Visual Data Mining and Machine Learning 產生機器學習模型的基本概念,此篇主要為學習筆記。

重點概念

首先許多資料探勘資料庫具有數百個用於預測目標 (相依變數或回應變數) 的潛在模型輸入 (獨立變數或解釋變數),此時在 Model Studio 中我們能夠透過變數選擇節點拒絕基於選擇結果的輸入變數來減少輸入變數的數量,並且儘管被拒絕的變數還是會被傳遞至管道中的後續節點,但這些變量不會被後繼建模節點用作模型的輸入變數。因此變數選擇節點是一個資料探勘預處理的節點,其能夠快速識別輸入變數,這對預測目標變數非常有用,然後,我們能夠透過一個建模節點更詳細地評估輸入變數的資訊。

接著變數選擇節點中的變數選取方法,主要能夠分為無監督選取和監督選取,所謂無監督選取主要是識別共同解釋最大值的輸入變數差異值,使用此方法將不會考慮目標變數,無監督選取主要透過 VARREDUCE 程序以執行無監督變數選取識別一組共同解釋最大資料量差異的變數,變數選取主要是基於協方差分析。所謂監督選取主要是識別共同解釋最大值的輸入變數目標中包含的變異量,監督選取主要透過 VARREDUCE 程序以識別一組共同的變數來執行監督變數選取的過程解釋回應變數中包含的最大變異量,監督選取主要基於 AIC , AICC 和 BIC 停止標準,值越小越好。

再來監督選取變數除了預設為快速監督選取之外,我們更能夠透過以下四種變數選取方法進行變數選取,分別為:

  1. 線性回歸選取
  2. 決策樹選取
  3. 森林選取
  4. 梯度加速選取

所謂線性回歸選取適合普通最小平方的變數選取迴歸預測模型,這對於間隔目標和二元目標有效,在一個案例中二元目標或具有用戶定義格式的二元目標,預設數字建立值為 0 或 1 的變數,然後取代目標,線性回歸選取主要指定 REGSELECT 程序以執行基於線性回歸選擇普通最小平方回歸。其提供了許多效果選擇方法,包括後向、前向、前向交換,逐步方法,以及現代 LASSO 和自適應 LASSO 方法,它還提供了廣泛的功能,可以通過各種方式自定義模型選取和停止標準,從基於計算效率的顯著性水平的標準到現代的,計算密集基於驗證的標準。所謂決策樹選取訓練決策樹預測模型剩餘平方和主要是用於計算每個預測變數的變數重要性,以及相對變數的重要性,我們能夠定的門檻值用於選擇最有用的預測變數。決策樹取取主要使用 TREESPLIT 程序以基於 CHAID 執行決策樹選擇,卡方,熵,基尼,資訊增益比,F 檢定和變異目標標準,其產生了一個分類樹,模擬分類回應或回歸樹,模擬持續的反應,不論哪一種樹皆稱為決策樹,因為模型是表達為系列 IF-THEN 語句。所謂森林選取透過擬合多個決策樹來訓練森林預測模型,剩餘對每個預測變數計算平方和變數重要性,對所有預測變量求平均值樹和指定的相對變數重要性門檻值用於選擇最多有用的預測變量,樹系選取主要用於建立預測的 FOREST 程序,其由多個決策樹組成的模型。至於梯度增強選取透過擬合一組梯度來訓練梯度增強預測模型決策樹,針對每個預測值計算殘差平方和變數重要性,變數在所有樹中的平均,以及我們相對變數重要性門檻值主要用於選取最有用的預測變數,梯度加速選取主要指定 GRADBOOST 程序用於建立由多個決策樹組成的預測模型。

最後我們在 Model Studio 中從訓練建立訓練樣本和驗證樣本資料,以利用於評估變數選取,我們能夠選擇所有上述方法進行變數選取,但這可能會導致處理時間長,具體取決於所使用的資料和分散式平行處理的環境。此外除了變數選取能夠減少輸入變數,我們更能夠透過變數分群減少輸入變數,特別是許多輸入變數皆是冗餘,冗餘的輸入變數可能會降低分析,像是破壞參數估計的穩定性、增加過度擬合的風險、混淆解釋性、增加計算時間、增加資料收集和擴充的成本、…等。變數分群主要分為不相交或分層的群組,不同群組中的變數是有條件的獨立給予本身的群組,對於包含多個變數的群組,選擇對該群組中的變化貢獻最大的變數作為代表變數,而所有其它變數都被拒絕,所以我們能夠透過變數分群找到最佳變數分析,並且消除了共線性,減少了冗餘,有助於揭示底層資料集中輸入變數的結構,有效減少變數數量。

相關資源