Leo Yeh's Blog

SAS 機器學習 (3)

教學目標

初步了解 SAS Visual Data Mining and Machine Learning 產生機器學習模型的基本概念,此篇主要為學習筆記。

重點概念

首先當我們透過 Model Studio 中建立新專案時,預設情況下會執行分區資料,若要在之前查看或修改分區設定,則可以執行「編輯專案設定」的操作指定分區資料的方法,預設為訓練資料集 70% 和驗證資料集 30%。此外專案設定是全域的,將會應用於任何建立的新專案中,當管線被執行之後將無法再進行變更,但是若要變更變數的中繼資料,則僅能夠透過管理變數節點來進行,至於在 Model Studio 中的分析元素,主要有四項,分別為:

  1. 專案
  2. 資料來源
  3. 管線
  4. 節點

接著 Model Studio 中的專案主要分析工作的容器,每個 Model Studio 專案包括資料來源和管線,並且專案中有許多相關的中繼資料,像是專案類型、專案建立者、共享列表和上次更新歷史記錄,此外若我們建立多個管線在專案中時,則能夠比較多個管線成效的分析結果儲存在該專案中。請注意在 Model Studio 中中繼資料會被定義為變數角色、測量層級等集合和其它適用資料集的設定,若使用類似的資料集建立多個專案時,其中繼資料設定可以跨專案應用,主要是將變數名稱變更為為全域中繼資料,將適用於包括具有相同名稱變數的新資料集。

再來 Model Studio 中的管線是結構化的分析行為流程,其中包括處理資料的節點和建立模型,此外客製化管線可以被儲存在 The Exchange 給其它人使用。我們能夠以管線的形式建立分析流程,並且透過向管線新增節點來建立視覺化資料探勘的功能,至於節點可以單獨增加,或者為了節省時間,我們可以透過管線範本一次增加多個節點,預先產生的管線範本將能夠加速模型建立的速度,而管線範本主要有三個層級,分別為:

  1. 基本管線範本
  2. 中等管線範本
  3. 進階管線範本

最後基本管線範本主要由迴歸和設算所組成,其中迴歸又可分為線性或邏輯,皆是所有管線範本的一部分,而進階管線範本具有自動調整的功能,模型建立過程主要透過實驗來確定最佳的參數集模型演算法,並且隨著演算法變得越來越複雜,像是神經網絡到深層神經網路,決策森林的決策樹和梯度提升,識別這些所需的時間參數增長,這種繁瑣的調整優化工作中,我們主要會透過超參數優化機器學習模型。

(註:專案主要會儲存在「/opt/sas/viya/config/data/cas/default/projects/」目錄中。)

相關資源

⬅️ Go back