Leo Yeh's Blog

SAS 基本介紹 (12)

教學目標

初步了解 SAS 資料管理解決方案的 QKB 基本概念和定義類型。

重點概念

首先 QKB,全名為 SAS Quality Knowledge Base,主要是儲存資料的檔案集合和定義資料管理維運的邏輯,像是轉換、標準化和對應,同時 SAS 軟體產品當在執行資料管理維護時將會參考 QKB,以及進行資理清理的應用。

接著 QKB 主要有兩個產品,分別為 QKB for Contact Information 和 QKB for Product Data,所謂 QKB for Contact Information 主要是針對組織和個人的聯絡資訊進行管理,像是名稱、地址、公司名稱和電話號碼。所謂 QKB for Product Data 主要是針對產品或服務的維度資訊進行管理,當然 QKB 也支援多國語系進行資訊的管理。

再來 QKB 的定義是指資料和邏輯將會組織至物件集合中,在 DataFlux Data Management Studio 中這些定義將會被列在 「Quality Knowledge Base」頁面中。當我們使用 SAS 資料管理產品處理資料時,我們將會透過資料工作任務中的特定節點進行資料的處理,像是我們為了要標準化公司名稱主要會使用資料工作任務中的「Standardization Node」中的定義進行公司名稱欄位的資料處理。

最後 QKB 的定義可以進行管理和客製化設定,主要點選「Tool」->「Customize」,此外我們也可以在管理提列中 QKB 按右鍵點選「Edit Quality Knowledge Base」進行客制化設定,其中定義有許多類型,請參考下表,此外在 QKB 中最常被用的定義類型為 Parse 定義,因為較實用且能應用於許多的情境應用

定義類型 定義說明 輸入範例 輸出範例
Case 主要定義轉換文字內容。 john james mcdonald John James McDonald
Extraction 主要定義擷取輸入的部份文字和關聯資料類型。 100 Slightly used green Acme XJF-100 raygun $100 c/w lots of shiny buttons Quantity => 100, Brand => “Acme”, Model => “XJF-100”, Color => “green”, Price => “$100”, Description => “Slightly used raygun c/w lots of shiny buttons”
Gender Analysis 主要定義決定文字內容的性別。 John James McDonald Male
Identification Analysis 主要定義識別文字內容的類別,請注意類別必須預先定義。 John James McDonald Individual
Language Guess 主要猜測文字內容的語言。 28 Rue des Halles 0 ~ 1000
Locale Guess 主要猜測文字內容的位置。 17 gallons of anesthetic 0 ~ 1000
Match 主要定義文字內容對應的代碼。 John James McDonald XYZ
Parse 主要定義文字內容嘗試轉換出關鍵字。 John James McDonald First name => “John”, Middle name => “James”, Family name => “McDonald”
Pattern Analysis 主要轉換文字內容至特定的模式中。 apples and pears but not oranges X and X but not X
Standardization 主要轉換文字內容為標準格式。 10 Main Street, Boston, Mass. 10 Main St, Boston, MA

總結本篇主要先初步了解 SAS 資料管理解決方案的 QKB 基本概念和定義類型,我們將可以得知 QKB 主要有十種定義類型將有助於資料管理,以利提升資料品質,然而功能雖然強大,但是關鍵前提還是要有豐富的詞庫,才能夠發揮最大效用。

相關資源

⬅️ Go back