Leo Yeh's Blog

SAS 預測模型 (2)

教學目標

此篇主要為 Applied Analytics Using SAS Enterprise Miner 官方課程筆記心得分享。

重點概念

首先當我們需要透過 SAS Enterprise Miner 建立線性迴歸預測模型或邏輯迴歸預測模型,主要會有三個參數必須進行估計,當有參數估計會在帶入預測函數的式子中進行運算,當然我們會針對不同策略目的,選取適當的指標進行比較。此外當準備開始建立預測模型時,我們需要先處理遺漏值,當我們收集資料時通常會有遺漏值發生,但是通常建立預測模型,則主要會以沒有遺漏值的資料列進行模型建立。

接著遺漏值發生主要會因為不合理的資料欄位、資料整合時發生問題、屬於不被揭露的資訊、…等,此時補值方法主要有兩種,分別為資料分佈和數學公式。此時我們主要能夠透過節點的編輯變數,勾選遺漏值百分比查看所有變數值的遺漏值情況,並且修改中的設算節點處理遺漏值,其中指標變數主要有二種,分別為單一和唯一,所謂單一主要是會產生單一變數,表示是否設定記錄中的任何變數,唯一主要是會為每個設算的變數產生虛擬變數,表示是否設算此觀測中的變數值。當設算遺漏值之後我們就能夠透過模型中的迴歸節點建立邏輯迴歸預測模型,並且我們能夠透過結果中的配適統計查看關鍵統計值,像是誤分類率、平均平方誤差、Akaike’s Information Criterion、Schwarz’s Bayesian Criterion、…等。此外我們還能夠透過結果中的輸出查看迴歸模型是否已經滿足收斂準則等詳細的統計資訊,以利判斷迴歸模型已達最佳化。

再來我們主要有三種方式選取模型的輸入變數變數,分別為向前、向後和逐步,所謂向前主要訓練會從模型中沒有候選效果開始,直到達停留顯著水準或停止準則時增加效果,向後主要訓練會從模型中所有候選效果開始,直到達停留顯著水準或停止準則時移除效果,逐步主要開始訓練時會和向前模型一樣,但是會移除模型中已存在的效果,直到達停留顯示水準或停止準則。此外預設為無則代表配適模型主要會使用所有的輸入變數,因此選取模型的方法不同時則會有不同的輸入變數,成效當然也會有所差異。此外在 SAS Enterpise Miner 中我們主要也可以透過變數選取節點、最小平方節點和決策樹節點選取最重要的變數,相關做法分別為:

  1. 變數選取節點:透過勘查中的變數選取節點進行變數的選取,產生結果中將會針對所有變數進行評估是否輸入或拒絕,若是拒絕則會有相關的理由進行說明。
  2. 最小平方節點:透過模型中的偏最小平方節點,此時要將匯出選取的變數設為是,並且設定 VIP 截止值,預設為 0.5,產生結果中將會針對所有變數進行評估是否輸入或拒絕,其主要是以 VIP 截止值進行判斷。
  3. 決策樹節點:透過模型中的決策樹節點,此時要將子樹方法為最大,並且設定替代規則數目為 1,產生結果中我們可以透過「檢視」->「模型」->「變數重要性」了解哪些變數非常重要。

最後要如何選擇最佳化的模型,訓練資料隨著輸入變數越多時,則會越來越精準,但是驗證資料則不一定。此時我們能夠針對模型選取修改選取選項,像是輸入顯著水準、停留顯示水準、最大步驟數目、…等,以及修改選取準則為驗證誤差或驗證誤分類率優化邏輯迴歸模型。此外當我們配適模型之前可以先進行資料轉換將能夠使得迴歸模型更加適合,此時轉換將會透過函數進行轉換,請注意轉換函數建議一對一對應。當然我們能夠透過修改中的轉換變數節點,針對變數進行勘查了解變數資料分配情況,以利後續挑選變數進行轉換,並且我們可以針對變數設定不同方法,像是對數、指數、平方、…等方法進行資料轉換。此外我們也能夠透過修改中的取代節點,針對類別變數透過取代編輯器進行值的取代分類,至於哪種方法比較好,沒有標準答案,重點在於關鍵指標是否有被優化,並且方法方便進行解釋,理應就是最好的方法,以利建立最適當的最佳化模型。

相關資源

⬅️ Go back