Leo Yeh's Blog

SAS 機器學習 (8)

教學目標

初步了解 SAS Visual Data Mining and Machine Learning 產生機器學習模型的基本概念,此篇主要為學習筆記。

重點概念

首先當我們已經確認擁有足夠且適當的資料,並且將資料轉換為適合建模的形式,以及確認要包含在我們模型中的關鍵特徵,此時若要使用模型,則我們能夠使用強大的機器學習演算法來建立預測模型或發現資料中的模式。我們應該嘗試以不同的方法來識別演算法和設定演算法的選項為我們的特定應用程式產生最佳模型,至於必要建模任務,主要有五個步驟,分別為:

  1. 選擇演算法
  2. 改善模型
  3. 優化模型的複雜性
  4. 正規化和調整模型的超參數
  5. 建立整體模型

接著機器學習的模型通常難以解釋,實際上機器學習模型建立預測需要思考,若模型有用,則需要由企業組織使用以自動方式快速做出決策的運作方式,然而將資料寫入資料庫就是機器學習最困難和乏味的方面,這個過程稱為模型部署。我們通常會建立多個模型,因此首先要評估多個模型,然後比較這幾個模型並確定通常稱為冠軍的最佳模型,接著將冠軍模型部署到生產中,這個過程稱為評分,即便過了已部署模型,必須對其進行監控,然後根據要求進行更新,簡單來說模型評估主要是評估所建立模型的成效,至於必要部署任務,主要有五個步驟,分別為:

  1. 評估模型
  2. 比較模型
  3. 為冠軍模型評分
  4. 監控模型效能時間
  5. 根據需要更新模型

再來沒有模型是最好的,特別是在考慮資料在部署模型時的變化,所有模型都基於所提供的資料,資料描述了問題或分析了業務情景,當場景發生變化時,資料會發生變化,模型也會變化在預測方面降低,沒有模型是最好的,特別是隨著時間的推移,此時我們必須針對多個維度比較多個模型,分別為:

  1. 訓練速度
  2. 評分速度
  3. 部署可行性
  4. 噪音容忍度
  5. 解釋能力

此外根據業務需求評估模型能夠解釋預測非常重要,在某些業務情境中,目標可能會動態變更,因此模型需要訓練得非常快速, 在某些情況下模型需要即時評分,所以評分過程非常重要,請注意沒有通用的最佳模型,根據取決於解決問題和業務需求方面的要求選取最適合模型,而最適合模型可以來自多個模型的整合。

最後過度擬合雖然能夠精確地擬合訓練資料,但是通常會導致不良新的資料結果,預測建模目的是泛化,即預測新的資料,在相同資料上評估模型通常適合模型,導致樂觀的偏見評估,糾正樂觀偏見的最簡單策略是資料分割,其中一部分資料用於擬合模型,其餘資料用於驗證。訓練資料集用於使模型適合所提供的資料,該資料集使模型能夠實現學習輸入變數和目標之間的關係,但是過度訓練基於此資料集的模型將可能會導致模型在新的資料中表現不佳。

相關資源

⬅️ Go back