SAS 預測模型 (5)

教學目標

初步了解 SAS Enterprise Miner 中互動式分箱節點和互動式分群節點的基本概念。

重點概念

首先在 SAS Enterprise Miner 的 SEMMA 資料探勘方法中,資料準備通常是資料探勘中最關鍵、最困難和最花費時間的過程,其中涉及很多步驟,像是互動式分箱節點 (Interactive Binning Node) 主要將每個類別值和間隔值的變數進行分組,以用於預測建模提高預測能力的方法,此外節點主要可用於將 Gini 統計量為測量的變數選擇,該指標顯示了特徵的預測能力,例如將高風險申請人與低風險申請人分開的能力。

接著互動式分箱可用於對多種連續分佈模式的非線性函數進行建模,互動式工具按分位數計算初始分箱,以及我們更能夠建立所有輸入變數的分箱,其中包括類別和間隔輸入變數。按照屬性中事件比例的降序對數據進行排序,假設一個特徵具有 m 個屬性,然後排序的屬性表示為分組 1、2、…、m,每個分組對應一個屬性,分組 1 具有最高比例的事件,再對於這些排序分組中的每一個計算分組 i 中的事件和非事件的數量,並且計算 Gini統計量,並且根據 Gini 統計量選擇強特徵,以及考慮業務因素對所選的特徵進行分組,該節點有助於表示風險等級趨勢,請注意這有可能導致過度擬合。

再來若使用這些屬性設定執行互動式分箱節點,則每個間隔縮放變數會先分為四個分箱,分箱是一種方法,用於將具有無限範圍的可能數值的區間標度變數轉換為分類變數,該變數採用有限數量的值,對應於觀察可能屬於的類別中。分箱涉及通過將觀察結果分類成對應於原始間隔縮放變數所採用的值的或多或少的窄範圍的區間來對觀察進行分組,這些分箱中的每一個都成為所得分類變數的類別之一。以及在形成分箱之後,就會計算每個輸入的 Gini 統計量,若是變數的 Gini 統計量值高於 Gini Cutoff 屬性指定的最小截止值,則變數為輸入,否則變數為為被拒絕。

最後若有 SAS Enterprise Miner 中 Credit Scoring 模組授權,則我們就能夠透過互動式分群節點 (Interactive Grouping) 自動化建立分組變數分析,並且允許我們將區間值變數轉換為類別值變數,或者基於二元值目標將每個分類值變數重新定義為完全不同的群組變數,在節點內建立的各個分組由證據權重 (Weight of Evidence,WOE) 統計量和基於二元值目標變數資訊值統計量,所謂 WOE 統計量主要是輸入分組變數的相對風險,其非常類似於邏輯斯回歸建模中的 log odds-ratio 統計量。此外不論是互動式分箱節點或互動式分群節點皆允許透過查看各種頻率圖,一次一個的針對訓練資料集中的每個輸入變數進行互動式分組。

相關資源