Leo Yeh's Blog

SAS 預測分析 (6)

教學目標

初步了解 SAS Visual Forecasting 預測分析的基本概念。

重點概念

首先在 SAS Viya 平台中主要提供一個整合分析的視覺化環境,也就是 Model Studio 工具,以利促進端至端的資料採礦與機器學習,文字分析和預測分析,同時更有提供 Model Manager 和 Workflow Manager 能夠管理模型和工作流程,更進一步完善端至端的分析模型管理生命週期,像是企業會先嘗試建立多個預測分析模型進行比較之後,選擇最佳的冠軍模型之後,候選模型就會被忽略或丟棄,這件事情非常可惜,因為冠軍模型隨著時間和環境的不同將不會一直是最佳的模型,所以我們必須針對模型進行重新訓練之後與更多預測分析的候選模型進行比較評估,更進一步搭配工作流程針對預測分析模型進行自動化部署。

接著當建立預測分析的專案之後,主要會有五個功能區域,分別為資料、管線、管線比較、覆寫和觀點,同時這也是建立預測分析模型的五個階段,第一階段先準備能夠用於預測分析的資料,第二階段主要建立多個預測分析模型的管線,第三階段主要進行預測分析模型的管線比較,第四階段主要顯示冠軍管線的結果,包括歷史和預測資料,並且針對預測分析模型進行後續手動調整,第五階段主要提供管線專案的摘要報告,其中包括專案摘要、MAPE 分布、執行摘要、所有管線的結果和資料定義等重要資訊,其中專案摘要會以一句話進行專案描述說明如下所示:

1
The XXX Project contains 1 time series. The dependent variable is x . Across 1 pipeline(s), the champion modeling strategy is 自動預測 and does not use any events. The WMAPE for the winning strategy is 1.958.

此外當我們建立任何專案之後,請為專案有意義的命名,並且加以說明,因為當建立幾個月之後,我們將可能會不再熟悉該預測分析的專案,此時如果有相當詳細的描述說明將有助於我們在短時間內熟悉該預測分析的專案,所以替專案增加說明被認為是預測專案的最佳實務。

接著用於預測分析的資料是什麼呢?針對此問題我們可以先描述時間序列的目標或相依變數是什麼?有多少時間序列被要求進行預測分析?預測分析的資料有層次結構嗎?當我們在 Model Studio 分析工具中新建預測分析的專案時,除了輸入專案的名稱、類型、範本和描述之外,更需要選擇資料,資料則能夠匯入本機檔案增加至資料來源中,當資料匯入成功之後,我們就能夠選取可用的資料,並且針對資料進行分析,其主要會產生關於資料摘要性的統計資訊,初步了解資料的品質,確保建立可被信任的預測分析模型和觀點報告。當我們選取可用的資料之後,就必須先指定時間角色的變數,並且設定時間間隔、乘數、移位和季節循環長度,同時當選取的間隔比建議值更小,這可能導致非預期結果,此時系統也會自動產生提示。除了指定時間角色的變數之外,我們還需要指定應變數角色的變數,並且設定階層聚合、時間間隔累積和遺漏解譯,其中遺漏解譯將能夠讓使用者解釋或估算時間序列資料中的遺漏值,預設情況下遺漏值沒有任何價值。當我們指定時間和應變數角色的變數之後,就能夠執行管線產生預測分析初步觀點的摘要報告,其中管線預設主要由資料、自動預測、模型比較和輸出這四個節點依序所組成,所以對於使用者不需要撰寫任何預測分析的程式碼,而僅需要指定預測分析資料表中的時間角色的變數和應變數角色的變數就能夠直接且快速產生專業的預測分析初步觀點的摘要報告。

再來我們也能夠設定定義自變數角色用於保留任何變數,自變數主要作為每個時間序列的候選解釋變數,而自變數與應變數相同主要皆能夠設定階層聚合、時間間隔累積和遺漏解譯,至於不同的部份在於自變數能夠設定是否於系統產生的模型中使用,主要能夠設定是、否或可能,所謂「是」主要為指定在模型可診斷的情況下,將自變數包含在模型中,此時系統會將分子和分母的延遲時間和順序設為零,所謂「否」主要為指定自變數不應包含在模型中,所謂「可能」主要為指定在自變數參數顯著的情況下,將自變數包含在模型中。此外如果我們需要建立分層結構的預測分析模型,則就會需要指定 BY 變數的角色,此時能夠同時選擇多個變數為 BY 變數的角色,並且自動分配和手動調整順序定義建模的層次結構,以及設定整合協調的層級為任何 BY 變數的角色的變數,至於預設為頂端,以及我們更能夠增加特性資料表,以利用於指定建模分層結構中的 BY 變數角色。

最後我們能夠針對預測分析模型的專案進行專案設定,其中針對預測設定主要有預測期間範圍數 (預設為 12)、信賴界限 (預設為 0.05) 和最佳選取準則,最佳選取準則主要用於決定此專案最佳管線的配適分析統計,配適統計用於透過比較實際資料與預測,評估預測分析模型的表現,並且當一或多個管線成功完成之後,最佳預測分析模型將會顯示在管線比較標籤上,預設為加權平均值絕對百分比誤差 (WMAPE),加權平均值絕對百分比誤差 (WMAPE)值越小代表用於預測分析模型的表現越佳,其主要是總結為選擇專案管線中冠軍模型的成效,至於有關 Model Studio 工具建立預測分析模型的管線相關網站畫面操作,請參考官方網站的教學影片

相關資源

⬅️ Go back