Leo Yeh's Blog

SAS 預測模型 (3)

教學目標

此篇主要為 Applied Analytics Using SAS Enterprise Miner 官方課程筆記心得分享。

重點概念

首先我們除了能夠透過決策樹或迴歸建立預測模型之外,更能夠透過類神精網路建立預測模型,其不需使用輸入變數,但主要透過最大概似函式進行運算。開始之前,我們要先管理遺漏值、處理極值、使用非數值輸入、…等預先處理,尤其是遺漏值的處理。至於在 SAS Enterprise Miner 中有關類神經網路的隱藏層只有一層,並非像目前所流行的深度學習有多個隱藏層,並且隱藏單位數目為 64 個,最大反覆運算次數預設為 50 次,以及我們除了可以調整隱藏單位數目和最大反覆運算次數提高預測模型的成效之外,更能夠透過決策數和迴歸挑選變數之後,再以類神精網路建立預測模型。

接著在 SAS Enterprise Miner 中還有整體模型主要是整合不同預測模型產生新的預測模型,我們主要會在公用程式中的控制點節點,先將所有預測模型節點以利簡化流程圖的連接線,並且在模型中的整體節點產生整體模型,其主要是從多重模型中取出類別目標之事後機率和間隔目標之預測值的函數建立新的模型。當建立完成多個預測模型的建立之後,像是決策樹、邏輯迴歸、類神經網路、整體、…等預測模型,下一步要如何挑選出最適當的預測模型。此時我們主要會透過評估中的模型比較節點同時比較多個預測模型。此時我們預設會透過 ROC 曲線評估多個預測模型的成效,找出最適當的預測模型,簡單判斷的方式為 ROC 曲線下的面積越大越好。

再來資料量越大不代表分析結果越好,因為我們進行資料探勘時主要關心的是較稀少且發生機率非常低的事件。此時我們可以採用過度抽樣方法,調整稀少事件和非稀有事件抽樣比例,使得事件比例較為平均,避免發生錯誤抽樣。針對過度抽樣我們除了透過分層抽樣的方法快之外,更能夠在決策處理中調整事前機率,並且針對模型節點中的模型選取準則建議調整為平均誤差,以及針對比較模型節點中的選取統計建議為平均平方誤差和選取模型使用的表格建議為驗證表格。此外在 SAS Enterprise Miner 中還能夠以利潤模型進行決策,則能夠透過勘查中的 StatExplore 節點查看目標變數更詳細的描述性統計資訊,並且在資料來源的決策處理中設定決策權數,修改模型比較中的選取統計為平均利潤/損失,當設定完成之後重新執行,此時就會以利潤矩陣的方式挑選預測模型進行最佳決策。此外我們更能夠查看模型比較節點中的評分排名重疊圖,點選 Cumulative Total Expected Profit 項目查看不同預測模型中的利潤變化。

最後我們可以透過評估中的評分節點和建立評分角色的資料來源,針對所挑選最適當的模型以評分的方式進行預測,並且在透過公用程式中的儲存資料節點將預測結果儲存為 SAS 資料集檔案,或著透過公用程式中的程式碼節點透過巨集撰寫 SAS 程式碼進行處理。此外我們更能夠將 SAS Enterprise Miner 產生的預測模型程式碼複製至 SAS Base、SAS Enterprise Guide 、 SAS Studo、…等 SAS 相關應用程式中進行更深入的商業分析之整合應用。

相關資源

⬅️ Go back