Leo Yeh's Blog

SAS Viya (144)

教學目標

初步了解在 SAS Visual Data Mining and Machine Learning 8.5 中實用新功能的基本概念。

重點概念

首先 SAS Viya 分析平台最近剛釋出最新 3.5 版,同時在 SAS Viya 分析平台中的 SAS Visual Data Mining and Machine Learning 8.5 新版本也提供許多實用的新功能,像是自動產生流程、特徵機、模型編輯器、… 等新功能,其中我們主要能夠透過內建的自動化機器學習的功能基於資料動態建立流程,此過程主要會自動針對所提供的資料執行資料準備、模型建立、模型比較和模型選擇,以利建立流程,並且當自動產生流程之後,我們就可以執行流程產生最佳模型,更進一步也能夠針對在流程中自動產生的節點進行編輯,因此自動產生出的流程將能夠大量減少資料科學家所花費進行資料準備的時間,並且將更多的時間投資在於調整機器學習模型的超參數和針對模型進行可被業務應用所信任的解釋。

接著透過 SAS Visual Data Mining and Machine Learning 8.5 所提供自動產生流程的新功能,對於使用者來說,僅需要建立一個專案,選取資料集,並且設定目標變數,以及設定自動化時間限制,時間限制主要允許流程產生過程執行的最長時間,當超過時間限制之後,將會選擇最佳的可用流程。因此我們將能夠設定 1 分鐘,此時代表允許流程產生過程執行的最長時間為 1 分鐘,當超過 1 分鐘之後將會選擇最佳的可用流程,當然設定時間越長,則最佳模型的準確度更佳。此外根據不同資料集和時間長度每次產生的流程皆會不同,尤其在於資料準備方面主要會根據不同機器學習模型節點選擇適當的前置處理節點,分別有轉換、補值、變數選取、程式碼、… 等,並且分別產生羅吉斯迴歸、類神經網路、決策樹、森林、梯度提升、… 等監督式學習的模型節點,根據不同的資料大小設定足夠多的時間,就能夠自動建立整體模型節點,以利提高最佳模型的準確度。

再來如果我們需要編輯自動產生流程,則必須要先將自動產生流程進行解鎖,當解鎖流程之後將能夠開始編輯流程中的節點屬性,然而目前隨著機器學習模型變得越來越複雜,快速而準確地解釋這些模型的能力將會減弱,因此我們能夠設定監督式學習的模型節點和整體模型節點中的後置訓練屬性,主要設定模型解釋性,其中主要包括 PD、ICE、LIME 和 Kernel SHAP 等模型解釋的方法將能夠協助我們更好的理解模型,請注意這些技術中的每一個皆是與模型無關的,這代表著這些技術將能夠應用於由監督式學習的模型節點。至於 Kernel SHAP 主要為 SAS Visual Data Mining and Machine Learning 8.5 新版本中所提供的全新方法,透過 Shapley 值將能夠幫助我們確定每個變數對於給定觀測值預測的相對重要性,與 LIME 值相反,LIME 值主要能夠幫助我們確定變數值的變化將如何影響模型的預測,因此不應直接比較 LIME 和 Kernel SHAP 值,因為它們測量的是不同的行為。

最後在 SAS Visual Data Mining and Machine Learning 8.5 新版本中我們將能夠在流程比較的頁籤中進行模型管理,我們主要能夠將自動產生的最佳模型進行註冊模型和發行模型,並且更能夠透過使用者操作界面直接下載評分 API,主要提供 Python、SAS 和 REST 三種方式,以及我們將最佳模型部署上線至正式環境中的業務應用程式為客戶提供更多更有價值的服務。此外當我們成功執行至少一個流程之後,我們能夠在專案中的洞察頁籤查看專案的洞察報表,在專案摘要報表中主要包括最佳模型的準確率評估指標,以及最重要的輸入變數的資訊。

相關資源

⬅️ Go back