Leo Yeh's Blog

SAS 資料科學 (5)

教學目標

初步了解 SAS Data Quality 提供組織強大資料評估、改善和監控功能的基本概念。

重點概念

首先 SAS Data Quality 主要是組織強大資料評估、改善和監控功能,同時這些功能可以用於獨立的資料品質專案或用於資料整合環境,以利支援資料治理,其重點主要有兩個部份,分別為:

  1. 資料管理平台架構。
  2. 資料管理方法。

接著資料管理平台架構主要有三層,分別為客戶層、資料層和伺服器層。在客戶層中主要有 Data Management Studio 桌面客戶端應用程式,為了使其正常執行皆必須要能夠存取資料層的來源資料,來源資料可以是資料表、SAS 資料集、檔案、…等多種來源資料的格式。此外我們還要能夠存取品質知識庫,簡稱為 QKB,QKB 主要是 Data Management Studio 應用程式中附加的檔案集合,其中包括預先定義的演算法,以利在不同流程中使用相關演算法。以及我們還要存取參考資源,又稱為資料包,我們使用 Data Management Studio 應用程式使用不同類型的參考資源進行資料的驗證,同時我們還必須透過 Data Management Studio 應用程式建立儲存庫,以利提供一個可以工作的地方。因此我們主要透過 Data Management Studio 應用程式進行下述事項,分別為:

  1. 定義資料連線。
  2. 建立 QKB 與資料包的連線。
  3. 建立儲存庫。
  4. 建立資料探索。
  5. 建立設定檔案。
  6. 建立資料工作。
  7. 建立處理工作。

此外除了 Data Management Studio 應用程式,我們還能夠使用伺服器層的 Data Management Server 伺服器,在大部份的情況下,我們透過 Data Management Studio 應用程式設定想要用於工作的地方,以利我們使用資料,並且我們還可以將其導入 Data Management Server 伺服器中進行處理。因此若工作和設定檔案是由 Data Management Studio 應用程式所建立將能夠匯入至 Data Management Server 伺服器中,以利使用更強大的能力進行處理,請注意相關 QKB 和資料包也必須讓 Data Management Server 伺服器有權限進行存取。當然我們也能夠透過驗證伺服器授權管理 Data Management Studio 應用程式中的某些元件。

再來資料管理平台架構中主要還有 Web Studio 和 SAS Business Data Network 兩種網站應用程式,其中 Web Studio 有提供參考資料管理者的功能允許我們創建特定參考的資料來源,然後在客戶層 Data Management Studio 應用程式或伺服器層 Data Management Server 伺服器進行應用。至於 SAS Business Data Network 應用程式則是在協作環境中建立業務條款,主要會收集關於我們在組織中使用的所有資料元件的所有資訊,以及在業務資料網路中可能使用其它類型的備註說明。

最後 DataFlux 資料管理方法主要是一個循序漸進的流程,主要應用於執行各種資料管理任務,它是三階段的方法,分別為規劃、執行和監督。在計劃階段中,我們需要確保定義任何需要使用的項目,藉由理解資料,以利發現資料中可能存在的任何異常情況。在執行階段中,我們需要設計不同的面向處理資料,並且在弄清楚我們需要對資料做些什麼工作之後,我們就能夠去執行資料工作,並且清理資料。最後在監督階段中,我們可以製定一套業務規則,以利評估現有資料或新的資料,並且控管資料進入流程中。此外這規劃、執行和監督三階段的方法是週期性,以利當我們取得新的資料時,藉由規劃、執行和監督三階段的方法嘗試改善資料的品質。

相關資源

⬅️ Go back