Leo Yeh's Blog

SAS 基本介紹 (14)

教學目標

初步了解 SAS 資料管理解決方案的 QKB 客製功能基本概念。

重點概念

首先我們可以客制化 Quality Knowledge Base (QKB) 對應資料,QKB 主要是透過語言學和啟發式演算法對應和清理集合的檔案,檔案中主要包括五個元素,分別為:

  1. Regular Expression (Regex) Libraries
  2. Vocabularies
  3. Schemes
  4. Grammars
  5. Phonetics Libraries

請注意 Format Library 不包括在 QKB 元素中,其檔案名稱為 (* .loc ) 主要是設定個別語言和地區,其中會包括資料類型和定義,定義主要就會使用上述五個元素。

接著我們會在 DataFlux Data Management Studio 主要目錄中選取「Tools」->「Customize」或開啟 DataFlux Data Management Studio 安裝目錄中的 CustMan.exe 開啟 QKB 的客制化視窗,當 QKB 的客制化視窗開啟時,將會載入目前的地區,此選項可以在「Tools」->「Options」->「Startup」中進行設定地區設定。

再來 QKB 的客制化視窗主要分成左右三個部份,右方主要為 Diagram 窗格、左方主要為 Dockable 窗格、以及下方主要為 Test 窗格。其中 Diagram 窗格主要顯示被選取定義的節點處理流程、Dockable 窗格主要顯示目前每一個 QKB 對應地區的資料類型和定義的樹狀結構檢視、以及 Test 窗格主要是針對測試的輸入進行測試的輸出。

最後在 Dockable 窗格中針對每個 QKB 檔案將會以樹狀結構檢視檔案中資料相關定義,選取定義之後將可以檢視定義的詳細資訊。然而除了檢視定義之外,還有檢視資料類型,我們主要在 Dockable 窗格中的資料類型和定義選取屬性開始屬性對話框,其中包括兩個欄位分別為 Name 和 Tokens,所謂 Name 主要是設定資料類型的名稱,所謂 Tokens 主要是列出資料類型的 Tokens,請注意資料類型主要是由一個至多個 Token 所組成,簡單來說,資料類型定義了內容的類型,其中包括許多對應資料邏輯和語義單元的子欄位,也就是所謂的 Token,例如描述個人姓名的資料類型,主要會包括稱謂、姓氏和名字等子欄位或者稱為 Token

總結客制化 Quality Knowledge Base (QKB) 對應資料主要重點在於地區、定義和資料類型,若我們能夠善用客制化 Quality Knowledge Base (QKB) 對應資料理論上就能夠有效的針對多個語言進行資料定義和類型的處理,以利了解資料背後的語意後進行更有價值的資料分析之應用。

相關資源

⬅️ Go back