Leo Yeh's Blog

SAS 學習資源 (2)

教學目標

初步了解如何開始學習 SAS 平台的基本概念。

重點概念

首先 SAS 官方提供許多教學影片研討會影片資源,初學者將能夠透過這些影片資源學習 SAS 平台,然而目前許多資料科學家主要使用 R 和 Python 為主,並且企業通常會將具有不同背景和經驗的團隊聚集在一起解決複雜問題,作為業界公認的分析領域的領導者,為何還要學習 SAS 平台呢?因為透過 SAS 平台才能夠同時管理 R、Python 和 SAS 所開發的模型,以及更能夠擴展資料科學的工作,並且加快將分析模型進行企業部署,同時滿足法規的要求,至於要如何達到呢?請先參考官方教學影片官方研討會影片的內容,當我們觀看完影片之後,將會發現不論是教學影片或研討會影片的內容皆常使用 HMEQ 資料集進行範例教學,所以什麼是 HMEQ 資料集呢?

接著 HMEQ 的全名為 Home Equity Loans,也就是房屋淨值貸款,在過去主要為 SAS Enterprise Miner 所提供的案例研究方法所使用的資料集,官方文件中提到 HMEQ 資料集主要是描述金融服務公司向其客戶提供房屋淨值信貸額度的情境,該公司過去已經擴展了數千個信貸額度,其中許多被接納的申請人,約 20% 已經拖欠貸款,因此透過使用地理、人口統計、財務、… 等相關變數,公司期望建立一個模型來預測申請人是否會違約的模型。而在分析資料之後,公司選擇了 12 個預測變數或輸入變數的子集來模擬每個申請人是否違約,其中回應變數或目標變數為 BAD 表示申請人是否違反房屋淨值信貸額度,HMEQ 資料集中總共有 5,960 個觀測值,以及總共有 12 個輸入變數和 1 個目標變數,至於 HMEQ 資料集中變數的相關資訊,請參考下表。

編號 變數名稱 模型角色 資料類型 描述
1 BAD 目標 二元 1 為客戶違約貸款或嚴重違約,0 為客戶已償還貸款。
2 CLAGE 輸入 間隔 最長信用額度的年齡,以月為單位。
3 CLNO 輸入 間隔 信用額度。
4 DEBTINC 輸入 間隔 債務與收入比率。
5 DELINQ 輸入 間隔 逾期信用額度。
6 DEROG 輸入 間隔 主要貶損報告的數量。
7 JOB 輸入 名目 總共有六類職業類別。
8 LOAN 輸入 間隔 貸款申請金額。
9 MORTDUE 輸入 間隔 現有抵押貸款應付金額。
10 NINQ 輸入 間隔 最近的信用查詢數量。
11 REASON 輸入 名目 DebtCon 為債務合併貸款,HomeImp 為家居裝修貸款。
12 VALUE 輸入 間隔 目前屬性值。
13 YOJ 輸入 間隔 申請人目前的工作多少年。

此外 HMEQ 資料集主要能夠從 SAS 官方網站下載 CSV 檔案,更能夠直接透過 SAS Studio 撰寫 SAS 程式碼的方式建立 HMEQ 資料集,並且再撰寫 SAS 程式碼針對 HMEQ 資料集進行取樣分割的操作。

再來 HMEQ 資料集主要能夠進行機器學習演算法測試和驗證,至於如何透過機器學習演算法進行 HMEQ 資料集的決策分析,建議參考官方影片,其中主要以由淺入深的方式解釋如何透過決策樹模型針對 HMEQ 資料集產生決策規則。此外 SAS 官方文件針對 HMEQ 資料集提供許多範例教學,分別為:

  1. 透過 SAS Enterprise Miner 建立預測模型。
  2. 透過 SAS Visual Analytics 建立決策樹模型。
  3. 透過 SAS Visual Data Mining and Machine Learning 建立開源程式碼模型。
  4. 透過 SAS Studio 以 SAS 程式碼建立進階決策樹模型、森林模型和神經網路模型進行比較。
  5. 透過 Jupyter Notebook 以 R 語言建立決策樹模型、森林模型和神經網路模型進行比較。
  6. 透過 Jupyter Notebook 以 Python 語言建立決策樹模型、森林模型和神經網路模型進行比較。

此外在針對 SAS Visual Data Mining and Machine Learning 不僅提供以 HMEQ 資料集為基礎建立開源程式碼模型的範例教學之外,更提供 HMEQ 資料集為基礎許多以機器學習演算法程序的範例教學,分別為:

  1. GRADBOOST 程序
  2. SEMISUPLEARN 程序
  3. FASTKNN 程序
  4. FOREST 程序
  5. GRADBOOST 程序
  6. SVMACHINE 程序
  7. NNET 程序

以及針對透過 ASTORE 過程建立分析儲存二進位檔案對其進行管理,並且使用分析儲存針對新資料進行評分,其主要也是以 HMEQ 資料集為基礎提供教學範例

最後在 SAS Viya 分析平台中主要提供完整的模型管理生命週期的分析應用,以及協助企業落實智慧決策的分析應用,其主要也是以 HMEQ 資料集為基礎提供快速開始的教學範例。因此在學習 SAS 平台之前,則建議先了解 HMEQ 資料集的變數資訊和應用情境,對於學習將會有非常大的幫助。此外最近我個人開始在工作之餘預計將此部落格的文章內容重新整理和編排為學習 SAS 平台的線上書籍,其中內容目前主要也是以 HMEQ 資料集為基礎撰寫開始使用 SAS Viya 分析平台的圖文操作步驟,像是資料準備、商業智慧、人工智慧、整合開源、模型管理、智慧決策、程式開發、工作流程、…等應用,希望此線上書籍能夠幫助初學者學習 SAS 平台。(註:線上書籍的開始使用圖文操作教學就算沒有 SAS 平台,也能夠在二週內免費申請試用環境進行線上實機操作提高學習成效。)

相關資源

⬅️ Go back