SAS 基本介紹 (15)

教學目標

初步了解 SAS 資料管理解決方案的資料工作基本概念。

重點概念

首先資料工作主要是透過 DataFlux Data Management Studio 工具建立與執行處理資料的流程,每一個資料工作將會設定資料處理從來源至目的之操作流程,例如我們可以先透過來源節點取得來源資料,接著透過處理節點進行來源資料的處理,最後透過輸出節點輸出來源資料處理之後的資料。若當資料工作被儲存在資料工作資料夾樹狀結構中時,則該資料工作將會被單獨執行或被其它資料工作所使用。此外若是資料工作被設定為在處理工作中的資料工作節點時,則資料工作節點將會封裝處理工作的資料處理操作,例如在任何資料工作中將可以加入資料工作節點進行資料處理的流程。

接著建立資料工作的標準流程主要有五個步驟,分別為:

  1. 規劃資料工作。
  2. 建立資料工作。
  3. 設定資料來源。
  4. 設定資料處理。
  5. 設定資料輸出。

當我們建立資料工作完成之後,我們可以執行資料工作的標準流程主要有三個步驟,分別為:

  1. 預覽資料工作的資料來源。
  2. 執行資料工作的資料處理。
  3. 審查資料工作的資料輸出。

再來每個資料工作皆是由許多不同類型的節點所組成,主要有十大類型,分別為:

  1. 資料工作 (Data Job)。
  2. 資料輸入 (Data Input)。
  3. 資料輸出 (Data Output)。
  4. 資料整合 (Data Integration)。
  5. 品質分析 (Quality)。
  6. 實體解析 (Entity Resolution )。
  7. 監控管理 (Monitor)。
  8. 輪廓管理 (Profile)。
  9. 實用功能 (Utility)。
  10. 豐富功能 (Enrichment)。

其中所謂資料工作節點主要是參考檔案系統中的資料工作檔案進行資料處理操作,所謂資料輸入主要是透過資料來源或設定 SQL 查詢設定不同類型的輸入至資料工作中。所謂資料輸出主要是透過資料目標或文字檔案輸出設定從資料工作中輸出多種類的資料。所謂資料整合主要是透過資料排序、資料連結、資料聯集、網頁服務、…等資料處理方式處理資料。所謂品質分析主要是分析資料以利提供高品質的的資料,像是性別分析、識別分析、標準化、解析、… 等分析方式。所謂實體解析主要是執行記錄對應,記錄對應合併多個檔案或單一檔案多筆記錄至單一記錄,像是對應代碼、分群、… 等對應方式。所謂監控管理主要是透過程式監控資料的處理流程,此時可以搭配執行商業規則和客制指標。所謂輪廓管理主要是透過程式從資料輪廓分析處理輸出的資料,像是模式分析、統計分析、頻率分佈、…等。所謂實用功能主要是執行特定的任務,像是表達式、資料驗證、分支、…等。最後所謂豐富功能主要是驗證資料,像是地址驗證、國家、電話、…等。

最後資料工作節點有非常多的類型,但是到底有哪些是重要的資料工作節點必須了解呢? 請參考下表整理。

節點類型 節點名稱 描述
Data Job Data Job (reference) 主要是指向在檔案系統中的資料工作檔案 (*.dds) ,在資料工作中使用其它資料工作節點進行資料處理。
Data Input Data Source 設定資料表當成資料工作的資料輸入。
Data Input SQL Query 設定 SQL 查看從一個或多個資料表中選擇資料,同時將結果資料當成資料工作的資料輸入。
Data Input Text File Input 設定分隔符號文字檔當成資料工作的資料輸入。
Data Output Data Target (Update) 輸出多種資料格式的資料,並且允許更新存在的資料。
Data Output Data Target (Insert) 輸出多種資料格式的資料至新的資料來源,或者覆寫存在的資料。
Data Output Text File Output 輸出資料工作結果的純文字檔案。
Data Integration Data Sorting 重新排序資料工作中的資料集。
Data Integration Data Joining 連結兩個資料集,類似於 SQL 中的 JOIN 語法。
Data Integration Data Union 聯集兩個資料集,類似於 SQL 中的 UNION 語法。
Data Integration SQL Execute 執行任何有效的 SQL 語法。
Qulity Gender Analysis 從名字清單中決定性別,結果會被放置新欄位。
Qulity Gender Analysis (Parse) 從已經進行解析的資料中透過名字清單中決定性別,結果會被放置新欄位。
Qulity Indentification Analysis 決定資料文字相關的類型,例如決定是個人名稱或組織名稱。
Qulity Parsing 分割多欄位值至多個或單個欄位中。
Qulity Standardization 使相似的項目相同,例如 SAS 和 SAS Institute Inc 因為是相似的項目所以相同。
Qulity Standardization (Parse) 從已經進行解析的資料中使相似的項目相同,例如 SAS 和 SAS Institute Inc 因為是相似的項目所以相同。
Right Fielding Right Fielding 從單一欄位基於資料類型複製資料至另一個欄位主要會被識別分析定義所決定。
Entity Resolution Match Codes 設定重複記錄被對應的標準所識別。
Entity Resolution Match Codes (Parsed) 從已經進行解析的資料中設定重複記錄被對應的標準所識別。
Entity Resolution Clustering 建立分群 ID 新增至輸入每列中,許多列會根據對應的分群標準設定分群 ID,
Entity Resolution Cluster Aggregation 接受分群節點的結果速,並且進行分群聚合,同時因為每個成員對應不同的對應代碼所以會有不同的分數。
Entity Resolution Cluster Analysis 比較對應分群中進行列配對決定是否符合。
Entity Resolution Sub-Clustering 類型分群節點,但是比較低層級。
Monitor Data Monitoring 套用任務至輸入資料表中,任何一個任務設定一個或多個商業規則和基於規則回傳結果觸發的事件,當事件被任務觸發時可被使用於監控資料品質。
Monitor Monitor Task Execution 允許我們執行將要監控資料的任務。
Monitor Execute Business Rule 允許我們選擇商業規則套用至資料列中當成資料工作的流程。
Monitor Execute Custom Metric 允許我們選擇客製指標套用至資料列中當成資料工作的流程。
Profile Pattern Analysis 查看資料來源的模式。
Profile Basic Statistics 產生資料來源的基本統計資訊。
Profile Frequency Distribution 增加頻率分佈輪廓至流程中。
Profile Basic Pattern Analysis 執行簡化版本的模式分析,主要允許我們針對字元集、數字和合併輸入執行模式分析。
Utilities Expression 允許我們新增 DataFlux Expression Engine Language 表達式至資料工作流程中。
Utilities Data Validation 分析資料內容和設定驗證的條件主要將被使用於過濾資料以利獲取更準確的資料。
Utilities Branch 允許增加 32 個表達式節點模擬從單一來源存取資料,依賴不同的設定資料將會從分支節點直接導至任何表達式節點或者資料暫存儲存在記憶體或硬碟快取中。

總結我們透過 DataFlux Data Management Studio 工具規劃與建立資料工作,搭配十種不同類型的節點,理論上能夠解決許多企業所面臨當進行資料擷取、轉換和載入時,產生的資料品質不佳的問題,但是往往企業所面臨多個系統整合的問題時將不會是僅透過單一解決方案就能夠解決,因此建議先縮小範圍和定位清楚 SAS 資料管理解決方案在企業中能夠解決的問題,再進行資料工作的規劃與建立,才不會在 SAS 資料管理解決方案系統上線營運時造成負責維運人員龐大的負擔。

相關資源