Leo Yeh's Blog

SAS 模型管理 (1)

教學目標

初步了解 SAS 有關模型管理和營運分析的基本概念。

重點概念

首先運營分析可節省寶貴的見解,自動化的分析模型可為信用卡交易,詐欺風險,貸款審核,產品品質控管以及任何在資料中帶來價值的方面提供創新思維的見解,然而從資料到發現再到部署的步驟是分析生命週期中的一個連續循環,由業務分析人員,資料科學家和開發專家團隊一起推動。其中一個最重要的目標是在可能的情況下智慧的自動化和加速處理,並且透過大規模平行運算功能,將能夠同時執行數百個模型,以及我們更能夠使用 SAS Model Manager 來管理企業組織中的所有模型。

接著自動化重複步驟可以節省關鍵時間,如果我們能夠透過一鍵註冊和部署分析模型,避免數個月的重新撰寫機器學習程式碼,以利獲取更高的商業價值,此時 SAS 提出 ModelOps 方法將能夠在分析生命週期中快速部署模型,雖然 ModelOps 基於 DevOps 方法,但是 DevOps 主要專注於應用程式的開發。至於 ModelOps 則致力於在確保模型結果品質的同時,快速從實驗室中獲取模型進行驗證,測試和部署,以利讓我們能夠更高效且持續地開發和部署模型。此外透過有效的模型管理和治理,我們更能夠輕鬆地比較和測試分析模型,並且產生效能評估報告和警報,以及根據工作流程發送信件通知。

再來 ModelOps 主要針對機器學習的進行模型管理,而在整個模型管理生命週期主要有三個角色,分別為資料工程師、資料科學家和商業經理,資料工程師主要進行資料準備、部署服務和報表管理,資料科學家主要進行探索分析、敘述性細分和預測模型,商業經理主要進行管理活動、領域專案、評估流程和投資報酬率,並且在機器學習操作流程中不同階段將會由不同角色負責不同的任務,分別為:

  1. 問題定義 (Problem Definition):商業經理
  2. 累積資料 (Accumulate Data):資料工程師和資料科學家
  3. 資料品質分析 (Data Quality Analysis):資料工程師和資料科學家
  4. 轉換和選擇 (Transform And Select):資料科學家
  5. 訓練模型 (Train Model):資料科學家
  6. 評估模型 (Evaluate Model):資料科學家
  7. 服務模型 (Serve Model):資料工程師
  8. 監控結果 (Monitor Results):資料工程師
  9. 重新訓練模型 (Retrain Model):資料科學家

其中第 1 步驟至第 5 步驟主要以歷史資料進行模型訓練,而第 6 步驟至第 9 步驟主要以新的資料進行模型服務,此外明確定義的業務目標是非常重要的第一步,像是我們想要從資料中得到什麼呢?想達到什麼目的?適合的業務目標是什麼呢?專案成果可以解決哪些問題呢?利益關係人將如何使用結果呢?以及專案成功的定義是什麼呢?

最後當機器學習模型在使用特徵之前,建議先針對特徵工程問題進行處理,像是針對特徵遺漏的問題則進行特徵設算,針對特徵冗餘的問題則進行特徵選取,針對特徵高維的問題則進行特徵降維以及針對特徵不足的問題則進行特徵轉換。此外針對不同模型的評估指標主要有 AUC、Lift、CAP、Gini、MSE、…,並且參考評估指標選擇最適當的部署模型,以及針對不同情境的應用我們將會採用不同類型的模型部署方式,請參考下表。

離線(靜態) 在線(動態)
隨需存取 網路服務 線上學習
批次處理 評分服務 自動化機器學習

總結無論使用哪種分析語言和存取哪些資料,或者將模型部署在哪裡,我們皆能夠透過 SAS 所提供 ModelOps 的方法進行模型管理和營運分析,以利促進分析和營運團隊的協同合作和提高生產率,更進一步為企業組織帶來更高的商業價值,像是透過機器學習來為客戶打擊詐欺行為,透過電腦視覺來提高癌症生存率,透過自然語言處理來提高客戶的理解能力等客戶案例。此外根據 IDC 調查 SAS 在人工智慧和進階分析軟體平台整合市場份額和收入方面位居全球第一,以及在人工智慧方面的成長率比整個人工智慧軟體平台市場快三倍以上。

相關資源

⬅️ Go back