Leo Yeh's Blog

SAS 學習資源 (4)

教學目標

初步了解如何透過 SAS University Edition 開始透過 JupyterLab 撰寫 Python 和 SAS 程式碼的基本概念。

重點概念

首先「SAS University Edition」是一款免費的統計分析軟體主要用於學術和非商業用途,我們能夠在官方網站下載虛擬映像檔,並且透過免費的「Oracle VM VirtualBox」工具啟動「SAS University Edition」虛擬映像檔,相關下載和啟動步驟,請參考官方網站的教學步驟教學影片,其主要支援 Windows、Linux 和 OS X 三大主流作業系統。

接著當虛擬映像檔啟動完成之後就能夠開啟動瀏覽器輸入「 http://localhost:10080 」進入「SAS University Edition」網站操作界面,並且按下「start JupyterLab」啟動「JupyterLab」,以利撰寫 Python 程式碼,其中預設的 Python 的版本為 3.5.5,我們主要能夠透過以下指令先確認版本。

取得 Python 版本

1
2
import sys
print(sys.version)

再來在「JupyterLab」中預設已經安裝「SASPy」函式庫,其主要能夠使用 Python 物件和語法存取 SAS 資料集和授權的 SAS 軟體,當然我們也能夠使用「pandas」函式庫進行資料交換。此時我們主要能夠透過以下 Python 程式碼先載入 SAS 官方網站所提供的範例資料,並且將 Python 資料框轉換為 SAS 資料集,以利進行後續資料分析的相關應用。

載入 Python 函式庫

1
2
3
4
import saspy
import pandas as pd
import ssl
import urllib

透過 Python 載入範例資料

1
2
3
4
5
context = ssl._create_unverified_context()
link_info = urllib.request.urlopen('http://support.sas.com/documentation/onlinedoc/viya/exampledatasets/hmeq.csv',
context=context)
df = pd.read_csv(link_info)
df.describe()

將 Python 資料框轉換為 SAS 資料集

1
2
3
sas = saspy.SASsession()
hmeq = sas.df2sd(df,'HMEQ')
hmeq.describe()

最後我們更能夠透過 JupyterLab 學習資料科學相關應用,請參考官方論文,在論文中主要說明如何透過 JupyterLab 以 SAS 程式碼建立一個分類模型,以利預測鐵達尼號的乘客生存情況,這曾經是個 Kaggle 競賽,此專案主要會建立至少一個新的特徵變數,並且進行特徵工程的設計,以及針對模型進行驗證和測試,最後進行模型評估和模型選擇。

相關資源

⬅️ Go back