Leo Yeh's Blog

SAS 預測模型 (1)

教學目標

此篇主要為 Applied Analytics Using SAS Enterprise Miner 官方課程筆記心得分享。

重點概念

首先 SAS Enterprise Miner 軟體主要是用於建立模型,一般來說,分析流程一定有目的,並且根據不同變數和訓練變數建立模型,其中建模方式有兩種,分別為模式探索,像是購物籃分析和集群分析,以及預測模型,像是決策樹、邏輯回歸和類神經網路。基本上一個專案中通常會有資料館和處理流程,其中處理流程是由許多節點所組成,每個流程會有不同的資料夾,並且在資料夾中會有許多節點對應的資料集。當我們開始建立 SAS Enterprise Miner 專案主要會先新增流程圖和新增資料來源,以修改中的取代節點處理遺漏值,以樣本中的資料分區節點產生訓練和驗證資料集,以模型中的決策樹節點進行分析。

接著我們將會進行決策樹分析,分割搜尋法主要會計算 logworth 值,p-value 值介於 0 至 1 之間,當 logworth 值越大則變數越顯著,一般我們會先挑選,並且進行分割,持續重複進行至最後就會產生最大樹。此時我們就能夠透過模型中的決策樹進行實作,透過互動式就能開始進行分割節點,其中-Log(p) 就是 logworth 值,接著編輯規則的部分,則能夠決定分割規則,當然我們能夠一層一層進行分割,此外我們也能夠針對分割點能夠進行增加和移除的修改,以及若不想手動分割節點,則能夠透訓練節點自動進行分割,不同顏色代表差異程度,顏色越深代表差異越大,至於線條大小則代表筆數。

再來若我們要更進一步了解誤分類率,則能夠透過子樹評估進行驗證,分支預設為 2 ,但是我們能夠去控制不同的分支數,分割準則針對類別資料我們除了 Chi-square logworth 值之外,更能夠使用 Entropy 和 Gini 值,至於連續型資料,則是使用 Variance 值和 Prob-F logworth 值。控制資料複雜度我們針對子樹的方法主要有 Assessment、Largest 和 N,我們也能夠的設定決策樹的最大深度和最小的葉子節點。此外決策樹優化主要是以誤分類率或精確率為主,排名優化主要是用窮舉法兩兩比較判斷一致性,估計優化則是以計算平方誤差進行比較為主。並且當我們建立完成決策樹之後,還能夠透過凍結樹指定是否要在訓練期間使用凍結樹的定義建立新的決策樹。

最後當我們執行之後將會產生決策樹的結果,其中預設結果主要包括評分排名重疊圖、分葉統計、樹狀圖、樹、配適統計和輸出,以利我們針對決策樹的結果進行判斷分析。當然我們也能夠點選「檢視」->「模型」->「變數重要性」,以利我們能夠根據變數重要性挑選變數。此外若我們建立多個決策樹模型,則能夠透過評估中的模型比較模型節點找出最佳的決策樹模型。

相關資源

⬅️ Go back