Leo Yeh's Blog

SAS 資料管理 (20)

教學目標

初步了解 SAS 9 平台中有關 SAS Data Integration Studio 工具的基本概念。

重點概念

首先 SAS 9 平台中的應用程式主要可分為三大部份,分別為資料管理、分析和報表,其中資料管理主要有四個重要的工具,分別為:

  1. SAS Data Integration Studio:主要提供資料管理基礎功能,其中包括管理資料來源,資料目標和流程,建立工作來組織一組來源,目標和過程,管理自動產生或手動建立的程式碼
  2. DataFlux Data Management Studio:主要提供資料管理進階功能,其中包括資料品質,實體解析和監視工具,以利將資料品質整合到資訊管理程序中。
  3. SAS OLAP Cube Studio:主要提供多維度資料集設計功能,其中包括輸入有關資料來源的資訊用於載入多維度資料集,定義維度,層次結構和等級別,並且提供量測值的詳細資訊,以及設定聚合值。
  4. SAS Information Map Studio:主要提供來自不同類型資料來源的資訊對應功能,其中包括作為企業使用者和資料倉儲之間的橋樑,合併業務規則和消除需要了解的資料關係。

除了上述四個用於資料管理重要的工具之外,我們最常使用 SAS Enterprise Guide 工具同時進行資料管理、分析和報表。此外作為一位資料整合開發人員主要工作就是收集,清理和儲存報表和分析所需的資料,這時主要會使用 SAS Data Integration Studio、 DataFlux Data Management Studio 和 SAS Enterprise Guide 工具為主。

接著資料整合主要有以下標準步驟流程,分別為:

  1. 執行變更管理:主要定義變更管理,並且在現有的環境執行變更管理的基本功能。
  2. 註冊來源資料表的中繼資料:主要透過「Register Tables Wizards」和「External File Wizards」能夠讓我們將許多類型的資料來源註冊為中繼資料的資料表,像是 SAS 資料表、ODBC 資料表、… 等。
  3. 註冊目標資料表的中繼資料:主要透過「New Table Wizard」能夠讓我們將目標資料表註冊為中繼資料的資料表,其中包括資料表類型、資料表函式庫、資料表名稱、資料表欄位、資料表索引、…等。
  4. 建立載入資料表的工作任務:主要定義從來源資料載入或產生目標資料表的工作流程,其中包括資料提取、轉換和載入至目標資料表中。
  5. 定義星狀結構資料模型和工作任務的中繼資料:主要定義星狀結構資料模型通常用於資料市集的資料模型,其中包括一個事實,並且參考任意維度數量的資料表,事實資料表主要儲存商業交易資料,像是價格和數量,而維度資料表主要儲存上下文資訊,像是客戶資訊、產品資訊和時間資訊。
  6. 執行工作任務的功能:主要透過匯入 SAS 程式碼建立工作任務用於處理客製化工作任務,像是統計資訊。
  7. 執行不同類型轉換和使用者定義轉換的功能:主要提供提取、摘要統計、回傳碼檢查、資料驗證、增加、排序、排名、查找、標準化、循環… 等轉換的功能,此外更透過「New Transformation Wizard」能夠讓我們建立使用者定義轉換的處理程序。
  8. 使用資料庫:主要在資料庫中執行分析處理,執行擷取、載入和轉換處理 (ELT) 或使用資料庫中函數。
  9. 部署工作任務:主要針對工作任務部署排程,部署批次和部署儲存程序。
  10. 執行資料品質的功能:主要搭配 DataFlux 軟體針對資料品質的需求進行審查。

再來目前 Git 已經在資料科學和 DevOps 營運中發揮更大的作用,自動化將會是最關鍵的工作,其中包括簽入、簽出和提交,然而 SAS 目前已將 Git 整合至更多的 SAS 產品中,像是在 SAS 9.4 M6 版本中的 SAS Data Integration Studio 4.904 就支援 Git 進行版本控管,目前已經有很多客戶要求在已支援的版本控制系統,像是 CVS 和 SVN 中增加 Git 版本控制系統,請注意 Git 主要是一個版本控制系統,其主要是一種用於管理源始碼歷史記錄的工具,至於 GitHub 是 Git 儲存庫的託管服務,因此 Git 是工具,然而 GitHub 則是使用 Git 工具的服務,因此我們將會透過以下步驟整合 Git 操作,分別為:

  1. 建立新工作:主要開始一個新的資料整合工作任務。
  2. 修改現有工作:主要修改已經在 Git 儲存庫中的工作任務。
  3. 比較和管理版本:主要比較同一個資料整合工作任務中兩個版本的變更。
  4. 恢復版本:主要停用工作任務和存檔版本,或者從 Git 儲存庫更新工作任務。
  5. 刪除現有作業和版本:主要刪除工作任務時,也會同步刪除 Git 儲存庫中的工作任務。

至於詳細的 SAS Data Integration Studio 整合 Github 進行互動式的版本控管之圖文操作請參考官方文件

最後 SAS Data Integration Studio 也支援 SAS Viya 分析平台中的 CAS 分散式雲端分析服務,主要透過 SAS Management Console 工具設定 CAS 引擎庫的中繼資料定義,至於 CAS 引擎庫不同於 CAS 函式庫,CAS引擎庫主要是指向 CAS 函式庫的 SAS 函式庫,而 CAS 函式庫是直接管理 CAS 中的物件,當設定完成 CAS 引擎庫的中繼資料之後,我們就能夠使用「Cloud Analytic Services Table Loader」資料轉換將將不同類型的資料載入至 CAS 伺服器中,至於詳細的 SAS Data Integration Studio 整合 CAS 分散式雲端分析服務進行互動式的資料轉換之圖文操作請參考官方文件。此外 SAS 在於資料整合方面已經連續九年被 Gartner 研究機構評選為領導者,主要在於視覺完整性和執行能力方面被獲得到認可,不僅支持各種資料交付方式,而且還可以將這些不同的數據交付方式,像是資料虛擬化和 ETL 組合在一起,並且提升有關中繼資料之動態彈性的優化和進階的輔助設計相關功能,以利將中繼資料應用在機器學習,以利幫助開發人員在整合設計和實現中提供不同程度的支援和自動化。

相關資源

⬅️ Go back