Leo Yeh's Blog

SAS 資料管理 (12)

教學目標

初步了解 SAS 資料品質功能應用的基本介紹。

重點概念

首先 SAS Data Quality 主要提供組織強大資料評估、改進和監控的能力,這些能力主要被使用在單獨的資料品質專案、資料整合環境和資料治理的活動。我們主要能夠透過 DataFlux Data Management 方法論進行資料管理,其主要有三個階段,規劃階段主要有定義和發現,行動階段主要有設計和執行以及監控階段主要有評估和控制。至於 SAS Quality Knowledge Base (QKB) 主要是執行資料清理的檔案集合,其主要是包括轉換、標準化、對應、… 等功能。

接著 Data Management Studio 儲存庫主要是的有關 Data Management Studio 物件的資料和中繼資料的集合,進行進行組織和關聯,並且以資料儲存和檔案儲存所組成。此外我們還會透過第三方的資料庫,以利進行資料驗證,也就是參考來源,在 Data Management Studio 中允許進行資料連線,主要有五種類型,分別為:

  1. ODBC
  2. Federation Server
  3. Domain Enable ODBC Connection
  4. Custom Connection
  5. SAS Data Set Connection

其中資料集合主要是不同資料連線和不同資料表的資料欄位集合。主要提供便利的方法使用被需要的欄位建立資料來源,其能夠被使用於資料檔案的輸入來源。此外我們還能透過資料探索從資料庫和資料表中讀取資料至類別中。主要能夠從多個資料來源取得和組織中繼資料,以及識別中繼資料之間的關係。至於資料探索主要有三種分析方法,分別為:

  1. 欄位名稱對應
  2. 欄位名稱分析
  3. 範例資料分析

再來資料檔案主要是有能力檢查資料錯誤、不一致、多餘和不完整的資訊,主要能夠提早改進了解已經存在的資料庫問題。並且資料檔案可以被執行建立資料連線插入的方式主要有文字檔案、SQL 查詢和被過濾資料表。此外我們也能夠使用資料檔案報表建立標準化綱要,所謂標準化綱要主要是採用多元化的拼音或代表。

最後資料工作主要是在 Data Management Studio 中處理資料的方法,任何一個資料工作皆會設定資料處理操作和從來源至目標流程的集合,每個資料工作皆有包括資料輸入節點和資料輸出節點。

相關資源

⬅️ Go back