DataFlux

SAS 資訊安全 (13)

基本介紹

教學目標

初步了解 DataFlux Data Management 中驗證和授權的基本概念。

重點概念

首先在 DataFlux Data Management 伺服器中資訊安全的管理主要有驗證和授權,所謂驗證透過 SAS 中繼資料伺服器進行作業系統環境中的識別驗證。所謂授權透過 DataFlux Data Management 伺服器進行權限授權,任何工作排程、服務、命令或資料皆能夠由管理者指定存取控制清單,以利進行權限授權的管理。

接著在 DataFlux Data Management 伺服器中建議落實資訊安全政策,資訊安全政策主要是識別使用者、群組、任務、工作和資料進行驗證,並且指定適當權限的授權。然而若要進行驗證和授權,則會有效能的問題,特別當我們存取 DataFlux API 時,預設皆會進行驗證和授權,此時就會導致存取效能不夠即時的問題,為了解決此問題我們能夠修改「dmserver.cfg」設定檔將「DMSERVER/SECURE」參數值設為「no」,也就是不進行使用者授權的設定。

再來雖然不進行使用者授權將能夠提供效能,但是卻會導致後續資訊安全管理的問題,此時我們除了能夠透過防火牆的策略設定之外,還能夠設定存取控制實體進行使用者和群組的授權控管,主要是修改「dmserver.cfg」設定檔中的相關參數值,分別為:

  1. DMSERVER/SECURE/DEFAULT_ACE_USERS_ALLOW
  2. DMSERVER/SECURE/DEFAULT_ACE_USERS_ALLOW
  3. DMSERVER/SECURE/DEFAULT_ACE_GROUPS_ALLOW
  4. DMSERVER/SECURE/DEFAULT_ACE_GROUPS_DENY

最後我們除了設定使用者和群組的存取控制實體之外,更能夠設定以網路位置進行的授權控管,主要是修改「dmserver.cfg」設定檔中的相關參數值,分別為:

  1. DMSERVER/IPACC/ALL_REQUESTS
  2. DMSERVER/IPACC/POST_DELETE
  3. DMSERVER/IPACC/NOSECURITY

總結在 DataFlux Data Management 中提供完整驗證和授權的資訊安全管理,若企業中沒有效能的要求,則建議啟用驗證和授權功能,並且落實企業的資訊安全政策進行資源的權限控管。

相關資源

SAS 資料科學 (5)

教學目標

初步了解 SAS Data Quality 提供組織強大資料評估、改善和監控功能的基本概念。

重點概念

首先 SAS Data Quality 主要是組織強大資料評估、改善和監控功能,同時這些功能可以用於獨立的資料品質專案或用於資料整合環境,以利支援資料治理,其重點主要有兩個部份,分別為:

  1. 資料管理平台架構。
  2. 資料管理方法。

接著資料管理平台架構主要有三層,分別為客戶層、資料層和伺服器層。在客戶層中主要有 Data Management Studio 桌面客戶端應用程式,為了使其正常執行皆必須要能夠存取資料層的來源資料,來源資料可以是資料表、SAS 資料集、檔案、…等多種來源資料的格式。此外我們還要能夠存取品質知識庫,簡稱為 QKB,QKB 主要是 Data Management Studio 應用程式中附加的檔案集合,其中包括預先定義的演算法,以利在不同流程中使用相關演算法。以及我們還要存取參考資源,又稱為資料包,我們使用 Data Management Studio 應用程式使用不同類型的參考資源進行資料的驗證,同時我們還必須透過 Data Management Studio 應用程式建立儲存庫,以利提供一個可以工作的地方。因此我們主要透過 Data Management Studio 應用程式進行下述事項,分別為:

  1. 定義資料連線。
  2. 建立 QKB 與資料包的連線。
  3. 建立儲存庫。
  4. 建立資料探索。
  5. 建立設定檔案。
  6. 建立資料工作。
  7. 建立處理工作。

此外除了 Data Management Studio 應用程式,我們還能夠使用伺服器層的 Data Management Server 伺服器,在大部份的情況下,我們透過 Data Management Studio 應用程式設定想要用於工作的地方,以利我們使用資料,並且我們還可以將其導入 Data Management Server 伺服器中進行處理。因此若工作和設定檔案是由 Data Management Studio 應用程式所建立將能夠匯入至 Data Management Server 伺服器中,以利使用更強大的能力進行處理,請注意相關 QKB 和資料包也必須讓 Data Management Server 伺服器有權限進行存取。當然我們也能夠透過驗證伺服器授權管理 Data Management Studio 應用程式中的某些元件。

再來資料管理平台架構中主要還有 Web Studio 和 SAS Business Data Network 兩種網站應用程式,其中 Web Studio 有提供參考資料管理者的功能允許我們創建特定參考的資料來源,然後在客戶層 Data Management Studio 應用程式或伺服器層 Data Management Server 伺服器進行應用。至於 SAS Business Data Network 應用程式則是在協作環境中建立業務條款,主要會收集關於我們在組織中使用的所有資料元件的所有資訊,以及在業務資料網路中可能使用其它類型的備註說明。

最後 DataFlux 資料管理方法主要是一個循序漸進的流程,主要應用於執行各種資料管理任務,它是三階段的方法,分別為規劃、執行和監督。在計劃階段中,我們需要確保定義任何需要使用的項目,藉由理解資料,以利發現資料中可能存在的任何異常情況。在執行階段中,我們需要設計不同的面向處理資料,並且在弄清楚我們需要對資料做些什麼工作之後,我們就能夠去執行資料工作,並且清理資料。最後在監督階段中,我們可以製定一套業務規則,以利評估現有資料或新的資料,並且控管資料進入流程中。此外這規劃、執行和監督三階段的方法是週期性,以利當我們取得新的資料時,藉由規劃、執行和監督三階段的方法嘗試改善資料的品質。

相關資源

SAS 基本介紹 (15)

教學目標

初步了解 SAS 資料管理解決方案的資料工作基本概念。

重點概念

首先資料工作主要是透過 DataFlux Data Management Studio 工具建立與執行處理資料的流程,每一個資料工作將會設定資料處理從來源至目的之操作流程,例如我們可以先透過來源節點取得來源資料,接著透過處理節點進行來源資料的處理,最後透過輸出節點輸出來源資料處理之後的資料。若當資料工作被儲存在資料工作資料夾樹狀結構中時,則該資料工作將會被單獨執行或被其它資料工作所使用。此外若是資料工作被設定為在處理工作中的資料工作節點時,則資料工作節點將會封裝處理工作的資料處理操作,例如在任何資料工作中將可以加入資料工作節點進行資料處理的流程。

接著建立資料工作的標準流程主要有五個步驟,分別為:

  1. 規劃資料工作。
  2. 建立資料工作。
  3. 設定資料來源。
  4. 設定資料處理。
  5. 設定資料輸出。

當我們建立資料工作完成之後,我們可以執行資料工作的標準流程主要有三個步驟,分別為:

  1. 預覽資料工作的資料來源。
  2. 執行資料工作的資料處理。
  3. 審查資料工作的資料輸出。

再來每個資料工作皆是由許多不同類型的節點所組成,主要有十大類型,分別為:

  1. 資料工作 (Data Job)。
  2. 資料輸入 (Data Input)。
  3. 資料輸出 (Data Output)。
  4. 資料整合 (Data Integration)。
  5. 品質分析 (Quality)。
  6. 實體解析 (Entity Resolution )。
  7. 監控管理 (Monitor)。
  8. 輪廓管理 (Profile)。
  9. 實用功能 (Utility)。
  10. 豐富功能 (Enrichment)。

其中所謂資料工作節點主要是參考檔案系統中的資料工作檔案進行資料處理操作,所謂資料輸入主要是透過資料來源或設定 SQL 查詢設定不同類型的輸入至資料工作中。所謂資料輸出主要是透過資料目標或文字檔案輸出設定從資料工作中輸出多種類的資料。所謂資料整合主要是透過資料排序、資料連結、資料聯集、網頁服務、…等資料處理方式處理資料。所謂品質分析主要是分析資料以利提供高品質的的資料,像是性別分析、識別分析、標準化、解析、… 等分析方式。所謂實體解析主要是執行記錄對應,記錄對應合併多個檔案或單一檔案多筆記錄至單一記錄,像是對應代碼、分群、… 等對應方式。所謂監控管理主要是透過程式監控資料的處理流程,此時可以搭配執行商業規則和客制指標。所謂輪廓管理主要是透過程式從資料輪廓分析處理輸出的資料,像是模式分析、統計分析、頻率分佈、…等。所謂實用功能主要是執行特定的任務,像是表達式、資料驗證、分支、…等。最後所謂豐富功能主要是驗證資料,像是地址驗證、國家、電話、…等。

最後資料工作節點有非常多的類型,但是到底有哪些是重要的資料工作節點必須了解呢? 請參考下表整理。

節點類型 節點名稱 描述
Data Job Data Job (reference) 主要是指向在檔案系統中的資料工作檔案 (*.dds) ,在資料工作中使用其它資料工作節點進行資料處理。
Data Input Data Source 設定資料表當成資料工作的資料輸入。
Data Input SQL Query 設定 SQL 查看從一個或多個資料表中選擇資料,同時將結果資料當成資料工作的資料輸入。
Data Input Text File Input 設定分隔符號文字檔當成資料工作的資料輸入。
Data Output Data Target (Update) 輸出多種資料格式的資料,並且允許更新存在的資料。
Data Output Data Target (Insert) 輸出多種資料格式的資料至新的資料來源,或者覆寫存在的資料。
Data Output Text File Output 輸出資料工作結果的純文字檔案。
Data Integration Data Sorting 重新排序資料工作中的資料集。
Data Integration Data Joining 連結兩個資料集,類似於 SQL 中的 JOIN 語法。
Data Integration Data Union 聯集兩個資料集,類似於 SQL 中的 UNION 語法。
Data Integration SQL Execute 執行任何有效的 SQL 語法。
Qulity Gender Analysis 從名字清單中決定性別,結果會被放置新欄位。
Qulity Gender Analysis (Parse) 從已經進行解析的資料中透過名字清單中決定性別,結果會被放置新欄位。
Qulity Indentification Analysis 決定資料文字相關的類型,例如決定是個人名稱或組織名稱。
Qulity Parsing 分割多欄位值至多個或單個欄位中。
Qulity Standardization 使相似的項目相同,例如 SAS 和 SAS Institute Inc 因為是相似的項目所以相同。
Qulity Standardization (Parse) 從已經進行解析的資料中使相似的項目相同,例如 SAS 和 SAS Institute Inc 因為是相似的項目所以相同。
Right Fielding Right Fielding 從單一欄位基於資料類型複製資料至另一個欄位主要會被識別分析定義所決定。
Entity Resolution Match Codes 設定重複記錄被對應的標準所識別。
Entity Resolution Match Codes (Parsed) 從已經進行解析的資料中設定重複記錄被對應的標準所識別。
Entity Resolution Clustering 建立分群 ID 新增至輸入每列中,許多列會根據對應的分群標準設定分群 ID,
Entity Resolution Cluster Aggregation 接受分群節點的結果速,並且進行分群聚合,同時因為每個成員對應不同的對應代碼所以會有不同的分數。
Entity Resolution Cluster Analysis 比較對應分群中進行列配對決定是否符合。
Entity Resolution Sub-Clustering 類型分群節點,但是比較低層級。
Monitor Data Monitoring 套用任務至輸入資料表中,任何一個任務設定一個或多個商業規則和基於規則回傳結果觸發的事件,當事件被任務觸發時可被使用於監控資料品質。
Monitor Monitor Task Execution 允許我們執行將要監控資料的任務。
Monitor Execute Business Rule 允許我們選擇商業規則套用至資料列中當成資料工作的流程。
Monitor Execute Custom Metric 允許我們選擇客製指標套用至資料列中當成資料工作的流程。
Profile Pattern Analysis 查看資料來源的模式。
Profile Basic Statistics 產生資料來源的基本統計資訊。
Profile Frequency Distribution 增加頻率分佈輪廓至流程中。
Profile Basic Pattern Analysis 執行簡化版本的模式分析,主要允許我們針對字元集、數字和合併輸入執行模式分析。
Utilities Expression 允許我們新增 DataFlux Expression Engine Language 表達式至資料工作流程中。
Utilities Data Validation 分析資料內容和設定驗證的條件主要將被使用於過濾資料以利獲取更準確的資料。
Utilities Branch 允許增加 32 個表達式節點模擬從單一來源存取資料,依賴不同的設定資料將會從分支節點直接導至任何表達式節點或者資料暫存儲存在記憶體或硬碟快取中。

總結我們透過 DataFlux Data Management Studio 工具規劃與建立資料工作,搭配十種不同類型的節點,理論上能夠解決許多企業所面臨當進行資料擷取、轉換和載入時,產生的資料品質不佳的問題,但是往往企業所面臨多個系統整合的問題時將不會是僅透過單一解決方案就能夠解決,因此建議先縮小範圍和定位清楚 SAS 資料管理解決方案在企業中能夠解決的問題,再進行資料工作的規劃與建立,才不會在 SAS 資料管理解決方案系統上線營運時造成負責維運人員龐大的負擔。

相關資源

SAS 基本介紹 (14)

教學目標

初步了解 SAS 資料管理解決方案的 QKB 客製功能基本概念。

重點概念

首先我們可以客制化 Quality Knowledge Base (QKB) 對應資料,QKB 主要是透過語言學和啟發式演算法對應和清理集合的檔案,檔案中主要包括五個元素,分別為:

  1. Regular Expression (Regex) Libraries
  2. Vocabularies
  3. Schemes
  4. Grammars
  5. Phonetics Libraries

請注意 Format Library 不包括在 QKB 元素中,其檔案名稱為 (* .loc ) 主要是設定個別語言和地區,其中會包括資料類型和定義,定義主要就會使用上述五個元素。

接著我們會在 DataFlux Data Management Studio 主要目錄中選取「Tools」->「Customize」或開啟 DataFlux Data Management Studio 安裝目錄中的 CustMan.exe 開啟 QKB 的客制化視窗,當 QKB 的客制化視窗開啟時,將會載入目前的地區,此選項可以在「Tools」->「Options」->「Startup」中進行設定地區設定。

再來 QKB 的客制化視窗主要分成左右三個部份,右方主要為 Diagram 窗格、左方主要為 Dockable 窗格、以及下方主要為 Test 窗格。其中 Diagram 窗格主要顯示被選取定義的節點處理流程、Dockable 窗格主要顯示目前每一個 QKB 對應地區的資料類型和定義的樹狀結構檢視、以及 Test 窗格主要是針對測試的輸入進行測試的輸出。

最後在 Dockable 窗格中針對每個 QKB 檔案將會以樹狀結構檢視檔案中資料相關定義,選取定義之後將可以檢視定義的詳細資訊。然而除了檢視定義之外,還有檢視資料類型,我們主要在 Dockable 窗格中的資料類型和定義選取屬性開始屬性對話框,其中包括兩個欄位分別為 Name 和 Tokens,所謂 Name 主要是設定資料類型的名稱,所謂 Tokens 主要是列出資料類型的 Tokens,請注意資料類型主要是由一個至多個 Token 所組成,簡單來說,資料類型定義了內容的類型,其中包括許多對應資料邏輯和語義單元的子欄位,也就是所謂的 Token,例如描述個人姓名的資料類型,主要會包括稱謂、姓氏和名字等子欄位或者稱為 Token

總結客制化 Quality Knowledge Base (QKB) 對應資料主要重點在於地區、定義和資料類型,若我們能夠善用客制化 Quality Knowledge Base (QKB) 對應資料理論上就能夠有效的針對多個語言進行資料定義和類型的處理,以利了解資料背後的語意後進行更有價值的資料分析之應用。

相關資源

SAS 基本介紹 (13)

教學目標

初步了解 SAS 資料管理解決方案的商業規則基本概念。

重點概念

首先規則和任務在 SAS 的 Data Management Studio 中是如何被使用,所謂商業規則是可被重覆使用的物件,主要設定 DataFlux 表達式,表達式主要評估一至多個資料表欄位中的值。商業規則可以被使用至一個或多個輪廓和資料工作的任務。

接著所謂工作任務是設定一個或多個規則和一個或多個事件。事件主要基於透過規則回傳的結果進行觸發。舉例來說,我們可以建立商業規則針對資產追蹤每位員工的輪廓。然後我們將會連結商業規則至任務中,當我們增加任務至監控工作和執行監控工作時,我們將會觸發輸入至資訊提升列中的監控頁籤中,例如若是我們想要監控不同種類的財務測量,此時我們將會在 DataFlux Data Manangement Studio 中監控瀏覽器中儀表板中進行查看,查看儀表板之前會先建立儀表板、維度、規則、任務、資料監控工作、…等項目。此外被使用於監控資料的商業規則和任務更能夠被使用於主數據管理。

再來在 Business Rule Manager 將能夠管理商業規則、工作任務和相關物件,同時也可以使用對話框管理將被使用在一個或多個商業規則或輪廓中之使用者定義表達式的客製化指標。至於要如何開始進行操作,僅需要點選「Tool」->「Business Rule Manager」,接著點選儲存體名稱就能夠開啟 Business Rule Manager 針對任務、規則、規則集合、欄位、欄位集合、客制指標、來源、儀表板、維度和門檻值定義進行設定。

此外在 Business Rule Manager 中的規則主要有三種類型,分別為列、集合和群組。所謂列規則主要是確認在資料表中的每列是否符合限制條件,例如一個列規則可能會針對空值確認資料表中每一列的欄位中,此時規則將會回傳在一列中有多少欄包括空值。請注意列規則僅會被使用於輪廓中屬於 DataFlux 表達式。所謂集合規則主要是確認所有在一個或多個欄位中的值是否符合限制條件,例如一個集合規則可能會確認所有欄位值的加總是否大於 1000。請注意集合規則通常會被使用於標準指標或客製指標屬於使用者定義 DataFlux 表達式,以及集合規則無法被使用在輪廓,但是可以被關聯任務,任務可從資料工作中的資料監控節點中進行使用。所謂群組規則主要是確認欄位中群組的相關值,請注意群組值可以被使用於標準指標或客製指標屬於使用者定義 DataFlux 表達式,以及集合規則無法被使用在輪廓,但是可以被關聯任務,任務可從資料工作中的資料監控節點中進行使用。

規則類型 輪廓 任務
列規則
集合規則
群組規則

最後在 Business Rule Manager 中將能夠透過規則屬性對話框中 Expression Builder 設定 DataFlux 表達式以利確認商業規則的三種類型,分別為列規則、集合規則和群組規則。其中已經有提供預先定義表達式允許我們執行操作,主要有三大類型,分別為:

  1. 比較欄位的值。
  2. 比較欄位的部份值。
  3. 比較欄位的值的長度。

總結在 SAS 解決方案中若能夠搭配 DataFlux Data Management Studio 中的 Business Rule Manager 定義不同種類的商業規則,理論上就能夠有效的提升輪廓和資料工作務務的資料品質,以利後續進行可被信賴和準確性高的資料分析之應用。

相關資源