SAS 時間序列 (8)

教學目標

初步了解 SAS 時間序列的基本概念。(此篇主要為準備考試的心得筆記)

重點概念

首先時間序列分析與統計中的其他分支類似,主要有基於推導的分析和基於預測的分析兩大類,當我們想要預測未來但未觀察到的週期時,最好先將資料集拆分為擬合樣本和保持樣本,與其它形式的預測建模不同,其中保持樣本是隨機子樣本,從原始樣本中,時間序列預測中的保持樣本是該系列的最終 k 值。最後一次測量之前的 k 個時間段預測序列中的下一個 k 值,但是現在我們知道那些最後的 k 值是什麼了,我們可以看預測的準確程度,擬合樣本用於推導預測模型,保留樣本用於評估預測模型的好壞程度,預測模型預測最近的 n 個觀測值。

接著我們可以透過誠實的評估模擬回顧性研究,其主要有五個步驟,分別為:

  1. 將時間序列資料分為擬合樣本和保留樣本兩個部分。
  2. 導出一組 ESM、UCM 或 ARIMAX 候選時間序列模型。
  3. 透過預測保持樣本來建模計算每個模型的精確度。
  4. 選擇具有最佳準確度統計量的模型。
  5. 使用最佳模型,產生 N 個預測。

其中完整資料 (Full) = 擬合資料 (Fit) + 保留資料 (Holdout) 用於適應部署模型,擬合樣本用於估計模型精準度參數評估和用於在保留樣本中的預測值。至於保留樣本則需要選擇足夠的時間點來覆蓋完整的季節性時期時間點,像是對於每月資料,請按保留至少 12 個月觀察結果,保留樣本始終位於時間序列的末尾,保留樣本用於評估模型準確性模擬回顧研究,根據經驗法則保留樣本應該至少包含 25% 時間序列。

再來我們主要透過平均絕對百分比誤差 (Mean Absolute Percent Error,MAPE) 和平均絕對誤差 (Mean Absolute Error,MAE) 評估預測準確性。MAPE 和 MAE 皆是模型擬合常見的評估測量,當我們選擇候選模型時,MAPE 或 MAE 值最低的模型是適合的模型,請注意兩個統計資料皆採用觀察值的絕對值減去預測值,在數學上這是必要的,但它可能會省略關於合適的重要資訊模型,像是一個模型可能具有非常低的 MAPE 或 MAE,但是預測值總是低於保留資料集中的觀測值此時就會不合適,建議還是需要查看結合在保留樣本中觀察和預測值的相關圖來評估模型。

最後我們要怎麼做準確的預測?假設我們需要預測未來農作物產量,但是我們用於預測農作物產量的產量、水量和降雨量資料僅為兩週時,我們則可以透過情境分析為整體預測過程增加價值,情境分析也稱假設分析。所謂情境分析主要是選擇隨機輸入變數的未來值產生不同的預測值,執行相同的模型,並且替換所選的未來每個值,再這將復雜的過程簡化為一系列簡單的布林條件語句,其能夠實現分析師以不同的輸入值為條件變數產生許多不同的預測。因此良好的預測應該與實際序列值高度相關,預測誤差很小,捕捉原始時間的突出特徵時間序列,以及應基於業務,工程或科學正在解決的問題對預測品質進行評估。

相關資源