SAS 機器學習 (2)

教學目標

初步了解 SAS Visual Data Mining and Machine Learning 產生機器學習模型的基本概念,此篇主要為學習筆記。

重點概念

首先在 SAS Viya 平台中透過 SAS Visual Data Mining and Machine Learning 主要有三個特點,分別為:

  1. 自動化:主要提供模型自動化建立,並且最小化人為操作的過程。
  2. 客製模型:主要使用最先進的演算法技術與開放源碼工具相結合建立強大的模型。
  3. 加速分析:主要針對任何資料大小或複雜性透過分散式處理平台加速分析的回應時間。

接著我們主要透過訓練資料集產生預測模型,所謂預測模型又稱監督式預測或監督式學習,預測模型表達變數和目標之間的關聯,而目標主要是基於訓練資料集透過預測模型進行學習產生輸出結果,輸出結果主要有三種類型,分別為:

  1. 決策型:是/否
  2. 排名型:高數值 – 低數值
  3. 估計型:機率值

再來 2003 年有兩位學者提到成功的機器學習應用主要有 80% 的時間花費在資料準備,請注意資料準備不僅是正確轉換和清理存在的資料,更需要了解所需要的特徵變數,以及避免垃圾進則垃圾出,至於準備資料的必要任務,分別為:

  1. 劃分資料
  2. 找出罕見事件
  3. 管理遺漏值
  4. 增加非結構資料
  5. 擷取特徵值
  6. 處理極端或異常值
  7. 選擇有用的輸入

最後我們如何在預測建模中對於模型成效進行評估,主要會透過簡單的資料分割標準策略,將其中一部分用於擬合模型,再將其它資料分開進行驗證模型,一般來說,資料被分為兩個 (訓練和驗證) 或三個 (訓練、驗證和測試) 的非重疊群組。當進行驗證之後我們會進行模型的調整以利產生一般化模型,至於選擇模型將會涉及偏差和變異之間的權衡,若一個不夠複雜的模型將可能會不適合,此時將會有高偏差,若一個過於復雜的模型可能過度適應樣本中隨機噪聲的細微差別將可能會導致過度擬合,此時將會有高變異,請注意預設將會使用驗證資料集選擇冠軍模型,而非測試資料集。

相關資源