SAS 資料品質 (1)

教學目標

初步了解 SAS 資料品質的解決方案的基本概念。

重點概念

首先 SAS 在 2017 年獲選 Gartner 資料品質工具領導者的肯定,現今有許多企業正在運用資料進行策略性的商業決策,以利帶來更多的效益。然而有效的決策僅有在使用高品質的資料時,才能夠發揮效用,此時 SAS 資料品質的解決方案就能夠讓組織使用資料分析出值得信賴的決策。

接著 SAS 資料品質解決方案主要包括 SAS Data Management 和 SAS Data Qulity 兩大產品。所謂 SAS Data Management 主要是建立於 SAS 9.4 平台上,透過完善的資料管理機制協助組織改善資料品質,以利進行整合與管理。所謂 Data Quality 主要是在整個資料生命週期中支援傳統和新興的資料來源,像是 Oracle、SQL Server、Teradata、Hadoop、Amazon Redshift、… 等,以利確保資料的可信度,並且能夠讓資料存取更快速與安全之外,更能夠建立直接改善資料品質。

再來針對改善資料品質的進階資料管理解決方案,其應用情境主要有八種,分別為:

  1. 在 Data Management Studio 中處理資料和存取資料。
  2. 在 SAS 中使用 QKB 處理資料和存取資料。
  3. 在 SAS 中呼叫 Data Management Server 上的即時資料服務。
  4. 在 Data Management Server 上啟動 DataFlux 進行資料相關的處理作業和存取操作。
  5. 在 SAS 中呼叫資料服務,以利運算個人檔案指標資訊,並且回傳至 SAS 中。
  6. 在 Data Management Server 和 SAS Data Quality Server 之間使用階段性的資料表,以利進行資料清理與處理。
  7. 在 Data Management Studio 中透過 SAS 應用程式伺服器執行 SAS 程式碼的處理工作。
  8. 透過 SAS Visual Process Orchestration Job 執行 Data Management Studio 和 Data Integration Studio 工作。

最後 SAS 資料管理的架構主要是由多許元件所組成,分別有 Data Management Server、Data Management Studio、QKB、SAS Application Server、Data Quality Server、 SAS Data Integration Studio、… 等元件,其中 Data Management Server 主要提供可延展性和即時性資料清理功能,以利我們透過資料過 Data Quality Server 中的程式或 SAS Data Integration Studio 的節點中的程式將作業和服務提供給SAS。此外我們還能夠直接透過 SAS 程式碼存取 QKB 元件,以及使用 Data Management Studio 工具建立作業和服務,以利執行不同種類的資料清理任務,這些作業和服務皆能夠部署至 Data Management Server 進行資料品質改善的進階應用。

總結 SAS 資料品質的解決方案就能夠讓組織使用資料分析出值得信賴的決策,並且我們能夠根據不同客戶的應用情境,搭配不同產品的進階資料管理解決方案,以利改善資料品質為組織帶來更大的效益。

相關資源