Leo Yeh's Blog

SAS 機器學習 (5)

教學目標

初步了解 SAS Visual Data Mining and Machine Learning 產生機器學習模型的基本概念,此篇主要為學習筆記。

重點概念

首先預測模型的最佳輸入變數是什麼?若我們嘗試每種輸入變數組合,則在可用輸入變數數量上將會呈指數式的成長,對於現實預測問題是不切實際的,而維度代表輸入變數的數量或自由度數,可用於建立多維度預測和資料探勘問題,至於維度的問題主要是密集產生所需資料的維度空間指數成長,當有很多輸入變數時,需要密集的輸入空間以適應高度複雜的模型,我們就會需要評估可以用於資料探勘的資料量,此時就會必須考慮維度的問題。為了解決維度問題,我們主要會進行降維,降維主要是減少所需考慮的變數數量,在許多應用中,原始資料具有非常高的維度特徵,並且某些特徵是多餘或非相關,此時減少維度將有助於找出真實潛在關係所相關的特徵值,而在 SAS Visual Data Mining and Machine Learning 中針對變數進行降維主要有三種方式,分別為:

  1. 特徵擷取
  2. 變數分群
  3. 變數選取

接著特徵擷取主要是將現有特徵變數轉換為低維空間,在 Model Studio 中的特徵擷取能夠使用各種不同技術,主要有四種技術,分別為:

  1. 主成分分析 (Principal Component Analysis,PCA)
  2. 強建性主成分分析 (Robust Principal Component Analysis,RPCA)
  3. 奇異值分解 (Singular Value Decomposition,SVD)
  4. 自動編碼器 (Autoencoders)

其中 PCA、RPCA 和 SVD 皆是一般常見的特徵擷取技術,但僅適用於間隔輸入,而自動編碼器主要是一種神經網路用於高效編碼,適用於類別輸入和間隔輸入,並且廣泛用於特徵擷取和非線性主成分分析。在架構上自動編碼器就像一個屬層感知器神經網路,因為它有一個輸入層、隱藏層 (編碼層) 和輸出層 (解碼層),但是其不同之處在於輸出層是從中複製的輸入層,因此自動編碼器是非監督學習模型,網路訓練有素重建其輸入,並且迫使隱藏層嘗試學習良好的輸入。

再來變數分群主要是將數值變數劃分為不相交的群組,並且選擇一個代表每個群組的變數,變數分群將會移除共線性,減少冗餘,並且協助了解底層資料集的結構,而當達到或超過其中一個門檻值時,則會停止分群過程,主要有三個門檻值屬性,分別為:

  1. 分群步驟數
  2. 分群變數量
  3. 分群數量

最後變數選取主要使用監督式變數選擇技術確定哪些變數對於模型影響最大的方法,監督式變數選擇技術主要基於變數選取線性模型和基於樹的模型,像是決策樹,森林和梯度增強。此外我們可以指定多個選擇技術,以及不同選擇標準,當不同的技術使用時,可能會對所選變數產生分歧,使用此功能可以選取一致的變數選取,若不符合選取標準的變數將會被標記為拒絕,並且不會在後續建模節點中使用。

相關資源

⬅️ Go back