QKB

SAS 資料品質 (1)

教學目標

初步了解 SAS 資料品質的解決方案的基本概念。

重點概念

首先 SAS 在 2017 年獲選 Gartner 資料品質工具領導者的肯定,現今有許多企業正在運用資料進行策略性的商業決策,以利帶來更多的效益。然而有效的決策僅有在使用高品質的資料時,才能夠發揮效用,此時 SAS 資料品質的解決方案就能夠讓組織使用資料分析出值得信賴的決策。

接著 SAS 資料品質解決方案主要包括 SAS Data Management 和 SAS Data Qulity 兩大產品。所謂 SAS Data Management 主要是建立於 SAS 9.4 平台上,透過完善的資料管理機制協助組織改善資料品質,以利進行整合與管理。所謂 Data Quality 主要是在整個資料生命週期中支援傳統和新興的資料來源,像是 Oracle、SQL Server、Teradata、Hadoop、Amazon Redshift、… 等,以利確保資料的可信度,並且能夠讓資料存取更快速與安全之外,更能夠建立直接改善資料品質。

再來針對改善資料品質的進階資料管理解決方案,其應用情境主要有八種,分別為:

  1. 在 Data Management Studio 中處理資料和存取資料。
  2. 在 SAS 中使用 QKB 處理資料和存取資料。
  3. 在 SAS 中呼叫 Data Management Server 上的即時資料服務。
  4. 在 Data Management Server 上啟動 DataFlux 進行資料相關的處理作業和存取操作。
  5. 在 SAS 中呼叫資料服務,以利運算個人檔案指標資訊,並且回傳至 SAS 中。
  6. 在 Data Management Server 和 SAS Data Quality Server 之間使用階段性的資料表,以利進行資料清理與處理。
  7. 在 Data Management Studio 中透過 SAS 應用程式伺服器執行 SAS 程式碼的處理工作。
  8. 透過 SAS Visual Process Orchestration Job 執行 Data Management Studio 和 Data Integration Studio 工作。

最後 SAS 資料管理的架構主要是由多許元件所組成,分別有 Data Management Server、Data Management Studio、QKB、SAS Application Server、Data Quality Server、 SAS Data Integration Studio、… 等元件,其中 Data Management Server 主要提供可延展性和即時性資料清理功能,以利我們透過資料過 Data Quality Server 中的程式或 SAS Data Integration Studio 的節點中的程式將作業和服務提供給SAS。此外我們還能夠直接透過 SAS 程式碼存取 QKB 元件,以及使用 Data Management Studio 工具建立作業和服務,以利執行不同種類的資料清理任務,這些作業和服務皆能夠部署至 Data Management Server 進行資料品質改善的進階應用。

總結 SAS 資料品質的解決方案就能夠讓組織使用資料分析出值得信賴的決策,並且我們能夠根據不同客戶的應用情境,搭配不同產品的進階資料管理解決方案,以利改善資料品質為組織帶來更大的效益。

相關資源

SAS 基本介紹 (12)

教學目標

初步了解 SAS 資料管理解決方案的 QKB 基本概念和定義類型。

重點概念

首先 QKB,全名為 SAS Quality Knowledge Base,主要是儲存資料的檔案集合和定義資料管理維運的邏輯,像是轉換、標準化和對應,同時 SAS 軟體產品當在執行資料管理維護時將會參考 QKB,以及進行資理清理的應用。

接著 QKB 主要有兩個產品,分別為 QKB for Contact Information 和 QKB for Product Data,所謂 QKB for Contact Information 主要是針對組織和個人的聯絡資訊進行管理,像是名稱、地址、公司名稱和電話號碼。所謂 QKB for Product Data 主要是針對產品或服務的維度資訊進行管理,當然 QKB 也支援多國語系進行資訊的管理。

再來 QKB 的定義是指資料和邏輯將會組織至物件集合中,在 DataFlux Data Management Studio 中這些定義將會被列在 「Quality Knowledge Base」頁面中。當我們使用 SAS 資料管理產品處理資料時,我們將會透過資料工作任務中的特定節點進行資料的處理,像是我們為了要標準化公司名稱主要會使用資料工作任務中的「Standardization Node」中的定義進行公司名稱欄位的資料處理。

最後 QKB 的定義可以進行管理和客製化設定,主要點選「Tool」->「Customize」,此外我們也可以在管理提列中 QKB 按右鍵點選「Edit Quality Knowledge Base」進行客制化設定,其中定義有許多類型,請參考下表,此外在 QKB 中最常被用的定義類型為 Parse 定義,因為較實用且能應用於許多的情境應用

定義類型 定義說明 輸入範例 輸出範例
Case 主要定義轉換文字內容。 john james mcdonald John James McDonald
Extraction 主要定義擷取輸入的部份文字和關聯資料類型。 100 Slightly used green Acme XJF-100 raygun $100 c/w lots of shiny buttons Quantity => 100, Brand => “Acme”, Model => “XJF-100”, Color => “green”, Price => “$100”, Description => “Slightly used raygun c/w lots of shiny buttons”
Gender Analysis 主要定義決定文字內容的性別。 John James McDonald Male
Identification Analysis 主要定義識別文字內容的類別,請注意類別必須預先定義。 John James McDonald Individual
Language Guess 主要猜測文字內容的語言。 28 Rue des Halles 0 ~ 1000
Locale Guess 主要猜測文字內容的位置。 17 gallons of anesthetic 0 ~ 1000
Match 主要定義文字內容對應的代碼。 John James McDonald XYZ
Parse 主要定義文字內容嘗試轉換出關鍵字。 John James McDonald First name => “John”, Middle name => “James”, Family name => “McDonald”
Pattern Analysis 主要轉換文字內容至特定的模式中。 apples and pears but not oranges X and X but not X
Standardization 主要轉換文字內容為標準格式。 10 Main Street, Boston, Mass. 10 Main St, Boston, MA

總結本篇主要先初步了解 SAS 資料管理解決方案的 QKB 基本概念和定義類型,我們將可以得知 QKB 主要有十種定義類型將有助於資料管理,以利提升資料品質,然而功能雖然強大,但是關鍵前提還是要有豐富的詞庫,才能夠發揮最大效用。

相關資源