SAS 基本介紹 (6)

基本介紹

教學目標

初步了解 SAS 公司所創建的資料探勘方法,主要關注於如何將資料探勘的模型開發階段進行邏輯組織。

重點概念

我們會取得歷史資料,透過一些方法去識別在資料中的模型,然後應用該模型預測未來發生什麼事的過程,稱之為預測建模屬於資料探勘應用之一。SAS 提出資料探勘方法 (SEMMA) 主要描述為了從資料中獲取洞察資訊所需的流程,其本質並非資料探勘的方法,而是代表 SAS Enterprise Miner 功能的邏輯組織步驟,主要有五個步驟分別為抽樣、探索、調整和建模。

  • 抽樣 (Sample)
    我們從大規模資料集中取出一小部份的資料即是抽樣,一般來說抽樣的資料必須足夠大,並且能夠包含具有意義的資訊,更要足夠小,能夠快速進行分析,同時因應不同的需求我們會分成三大類資料集,分別為訓練集、驗證集和測試集,因此如何從大規模資料集中進行可靠且具有統計代表性的資料抽樣,將會有許多不同的策略,但是在大數據的時代若已經擁有更快速的系統進行資料探勘時則抽樣就能省略

  • 探索 (Explore)
    我們透過資料的探索,尋找預料之外的趨勢和異常情況並且理解產生觀點,更能透過對應分析、因素分析、群集分析、…等統計技術進行探索,以利了解特定客群的行為模式。

  • 調整 (Modify)
    我們藉由產生新的變數、變數選擇和變數轉換以利調整資料,更進一步關注於模型的選擇過程,每當有新的資訊出現時我們就能針對資料探勘的方法或模型進行調整。

  • 建模 (Model)
    我們採用資料建立模型,讓軟體能夠自動可靠預測出期望結果的資料組合方式,此時常見的技術包括類神經網路、階層模型、邏輯模型、…等統計模型進行建模,然而基於分析的資料不同,每個模型皆有特定的優點和應用於特定資料探勘情境。

  • 評估 (Assess)
    我們從資料探勘的流程中獲取發現的結果,並且針對期有用性和可靠性針對模型進行評估,同時預測模型的執行結果。

最後當我們基於資料探勘的步驟取得適合的模型之後,此時我們就會需要進行模型的自動化部署,針對新的客戶情況進行評分。

相關資源