SAS 教學

SAS 基本介紹 (6)

基本介紹

教學目標

初步了解 SAS 公司所創建的資料探勘方法,主要關注於如何將資料探勘的模型開發階段進行邏輯組織。

重點概念

我們會取得歷史資料,透過一些方法去識別在資料中的模型,然後應用該模型預測未來發生什麼事的過程,稱之為預測建模屬於資料探勘應用之一。SAS 提出資料探勘方法 (SEMMA) 主要描述為了從資料中獲取洞察資訊所需的流程,其本質並非資料探勘的方法,而是代表 SAS Enterprise Miner 功能的邏輯組織步驟,主要有五個步驟分別為抽樣、探索、調整和建模。

  • 抽樣 (Sample)
    我們從大規模資料集中取出一小部份的資料即是抽樣,一般來說抽樣的資料必須足夠大,並且能夠包含具有意義的資訊,更要足夠小,能夠快速進行分析,同時因應不同的需求我們會分成三大類資料集,分別為訓練集、驗證集和測試集,因此如何從大規模資料集中進行可靠且具有統計代表性的資料抽樣,將會有許多不同的策略,但是在大數據的時代若已經擁有更快速的系統進行資料探勘時則抽樣就能省略

  • 探索 (Explore)
    我們透過資料的探索,尋找預料之外的趨勢和異常情況並且理解產生觀點,更能透過對應分析、因素分析、群集分析、…等統計技術進行探索,以利了解特定客群的行為模式。

  • 調整 (Modify)
    我們藉由產生新的變數、變數選擇和變數轉換以利調整資料,更進一步關注於模型的選擇過程,每當有新的資訊出現時我們就能針對資料探勘的方法或模型進行調整。

  • 建模 (Model)
    我們採用資料建立模型,讓軟體能夠自動可靠預測出期望結果的資料組合方式,此時常見的技術包括類神經網路、階層模型、邏輯模型、…等統計模型進行建模,然而基於分析的資料不同,每個模型皆有特定的優點和應用於特定資料探勘情境。

  • 評估 (Assess)
    我們從資料探勘的流程中獲取發現的結果,並且針對期有用性和可靠性針對模型進行評估,同時預測模型的執行結果。

最後當我們基於資料探勘的步驟取得適合的模型之後,此時我們就會需要進行模型的自動化部署,針對新的客戶情況進行評分。

相關資源

SAS 基本介紹 (5)

基本介紹

教學目標

初步了解如何透過 SAS 工具進行行銷活動自動化處理。

重點概念

在 Gartner, Inc 於《Magic Quadrant for Digital Marketing Analytics》2015 分析報告中認可 SAS 為數位行銷分析的領導地位,主要優勢在於進階分析、彈性穩建和品牌忠誠,可是其學習曲線和建置成本平均較高。透過客户智慧解决方案(SAS® Customer Intelligence)可以幫助企業制定以客戶為中心的數位行銷策略,透過大數據分析獲取洞察,優化不同通路名單產出等應用。

SAS 的活動管理解決方案相關工作項目主要可以分為四個階段:

  1. 資料上線
    • 資料品質
    • 資料豐富性
  2. 活動規劃與執行
    • 市場區隔
    • 評分模型
    • 優化處理
  3. 通路整合
    • 執行過程
    • 處理回應
    • 分析歸因
  4. 活動評測
    • 追蹤成效
    • 分析報表

其中在於資料上線的部份需要將內部資料或外部資料 (例如: Teradata) 整合進 SAS 特有的資料庫中,主要包括客戶資料、回應資料和活動資料,這需要與資料倉儲進行整合應用,接著透過 SAS Marketing Automation 可使活動管理者執行更快速達到更佳目標和準確的市場區隔產生名單,並且搭配 LSF Flow Manager 進行自動化排程作業,最後整合不同的通路進行成效追蹤與分析報表。

最後許多資料被儲存在資料倉儲中,藉由 Common Data Model (CDM) 支援巨量資料的收集處理程序,接著進行擷取與轉換,針對不同的需求可分為單一來源資訊流、多重來源資訊流和合併資訊流等資料整合應用,基於上述的過程,我們即可每日基於不同客戶進行風險識別與預測分析產生適合不同通路的名單。

相關資源

SAS 基本介紹 (4)

基本介紹

教學目標

初步了解如何將 Teradata 資料表透過 SAS Code 匯入至 SAS Visual Analytics 中,以利進行分析。

重點概念

建立資料表

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
LIBNAME valibla SASIOLA
TAG=HPS
PORT=10010
HOST=[hostname]
SIGNER="http://[hostname]:7980/SASLASRAuthorization";

LIBNAME tera teradata server='[server IP]' database='[database]' user='[user]' password='[password]';

DATA valibla.[tablename];
set tera.[tablename];
run;

PROC METALIB;
omr (liburi="[libraryURI]" server="[server]" port="[port]" user="[user]" password="[password]");
folder="[folder]";
select ([tablename]);
update_rule=(DELETE);
run;

刪除資料表

1
2
3
4
5
6
7
8
9
LIBNAME valibla SASIOLA
TAG=HPS
PORT=10010
HOST=[hostname]
SIGNER="http://[hostname]:7980/SASLASRAuthorization";

PROC DATASETS library=valibla nolist;
delete [tablename];
quit;

相關資源

SAS 基本介紹 (3)

基本介紹

教學目標

初步了解 SAS LASR 分析伺服器如何在記憶體中進行資料分析。

重點概念

SAS LASR 分析伺服器是一個分析平台,主要讓多個使用者安全且並行存取被載入至記憶體中的資料,最大優勢在於分散式運算的環境,並且在多台機器上的負載會執行大量的並行處理。主要提供兩種方式進行進行小資料集和大數據的分析,當進行分析時主要會讀取資料表至記憶體中進行高效能的處理。

  1. 從 Tables 和 Data Sets 中讀取資料。
  2. 從 Co-located Data Provider 或 HDFS 中讀取資料。

此外還能夠整合不同資料來源的資料倉儲,像是 Teradata ,主要會將資料轉換成 SAS 資料集之後再轉入至記憶體中,以及更新 HDFS 中相關的 SAS 資料集 (HDFS 不支援 APPEND),而當 LASR Analytic Server 掛點時重開之後則可從 HDFS 或 SAS 資料集進行還原,至於與 SAS Visual Analytics 有關的高層次架構,請參考下圖。

SAS Visual Analytics 高層次架構

最後透過 SAS LASR Monitor 服務 (Grid Monitor) 即可用來監控伺服器的狀態,若當發現伺服器執行異常或損毀時,則按照以下六個步驟還原 SAS LASR 分析伺服器。

  1. 停止 SAS LASR 分析伺服器和 SAS LASR Monitor 服務。
  2. 尋找 TKGrid 的 Session (ps -ef | grep TKgrid)。
  3. 刪除 TKGrid 的 Session (kill -9 [pid])。
  4. 重新啟動 SAS LASR Monitor 服務。
  5. 重新啟動 SAS LASR 伺服器。
  6. 重新載入資料至記憶體中。

相關資源

SAS 基本介紹 (2)

基本介紹

教學目標

初步了解 SAS Studio 基本操作。

重點概念

首先請先至SAS 官網,點選「Get free software」,接著點選雲端項目中的「Launch now」,再輸入基本資料之後,根據官方文件快速建立 SAS University Edition 雲端伺服器 (建議先產生專屬 Key Pair)。

等待伺服器完整啟動之後,開啟 AWS Marketplace 點選「Access Software」,當網站開啟之後請先輸入帳號與密碼 (帳號: sasdemo,密碼: [Instance ID]),此時請點選「啟動 SAS Studio」開始使用。

最後如何開始使用則可以參考官網十分鐘教學,不僅可以透過 SAS Code 的方式進行客制查詢之外,更能夠透過設定查詢自動產生 SAS Code ,接著按下執行鈕即可立即進行查詢,更進一步產生圖表資訊,如下圖所示。

SAS Studio 透過操作產生圖表

(註: 當不練習時可先透過 AWS 主控台停止 SAS University Edition 雲端伺服器,等要練習時再透過 AWS 主控台重新啟動。)

相關資源