Data Management

SAS 資料科學 (6)

教學目標

初步了解 DataFlux Data Management Studio 工具的概念,主要包括操作介面、儲存庫類型、資料管理結構和資料連線。

重點概念

首先我們主要需要了解 DataFlux Data Management Studio 的操作介面,並且進行操作,分別為:

  1. 在畫面左上角有首頁選項卡,以利我們返回首頁和切換不同的項目。
  2. 在畫面上方將會看到主目錄和工具列,這兩者總是並排放置。
  3. 在畫面左方導航區域選擇提升列,導航區域中選定的項目主要控制資訊區域中的內容。
  4. 點選主頁選項卡中的任何一個項目時,則會在左方出現資源區域。
  5. 點選主頁選項卡中的任何一個項目時,則會在下方出現詳細資訊區域。

接著我們需要了解什麼是儲存庫?當我們開始使用 Data Management Studio 工具時,一開始就是要定義工作地點,也就是儲存庫。儲存庫主要是定義有關於建構各種項目或物件的中繼資料的集合,類似於資料作業或設定檔案,因此儲存庫主要被用於組織工作和查看連結關係。此外當我們建立一個新的儲存庫時,主要有兩種類型的部份,分別為:

  1. 資料儲存區。
  2. 檔案儲存區。

其中資料儲存存區主要有專屬的檔案類型為 RPS ,同時我們也可以指定一個資料庫,像是我們能夠將儲存庫資訊儲存在 Oracle 資料庫或 SQL Server 資料庫中的多個資料表中,再透過定義的資料庫連接從資料庫中存取儲存庫資訊。至於檔案儲存區主要是我們可以指定基於檔案進行資料作業的區域,同時若我們要建構任何資料作業清理資料,此時就必須要擁有檔案儲存區。

再來當我們描述資料管理結構時,其中一部份就是包括品質知識庫,又稱 QKB。所謂 QKB 主要是可以執行資料清理的文件集合。所謂清理資料主要是將資料變的更加可用,同時也能夠讓我們進行解析資料、標準化資料、收集資料、…等資料清理演算法的作業。然而在不同國家針對資料進行標準化的方式可能會有所不同,所以 QKB 被分解為不同語言環境的單元,以利我們針對不同類型的資料提供特定於語言環境的定義。若我們需要存取不同的 QKB,僅需要透過 Data Management Studio 的主頁選項卡中的管理提升欄,在「Quality Knowledge Bases」項目中新增不同的 QKB。此外若我們需要在工作中使用 QKB 中的相關演算法,則會需要先確保可用的項目,這時我們可能會需要提供另一個參考資源,所謂參考資源,又稱資料包主要是第三方資料庫,我們可以使用資料庫來驗證資料中的資訊是否正確,因此描述資料管理結構時,主要有兩個重點,分別為:

  1. 品質知識庫。
  2. 參考資源。

最後當我們準備開始使用 Data Management Studio 時,我們必需要確保存取想要使用的資料,也就是資料連線,所謂資料連線主要有五種類型,分別為:

  1. ODBC 連線。
  2. ODBC 連線 (啟用網域)。
  3. SAS 資料集連線。
  4. Federation 伺服器連線。
  5. 客制化連線。

並且在 Data Management Studio 工具中,我們從資料提升列中定義資料連線。此外透過資料瀏覽器將能夠在還沒有使用資料之前先查看資料實際值,並且進行序、過濾和搜索,以利初步了解資料,預設情況下,資料瀏覽器只會顯示 500 筆記錄。

總結若要開始使用 DataFlux Data Management Studio 應用程式時,最好先了解操作介面、儲存庫類型、資料管理結構和資料連線的概念,以利準備為於分析和報表用的資料。

相關資源

SAS 資料科學 (5)

教學目標

初步了解 SAS Data Quality 提供組織強大資料評估、改善和監控功能的基本概念。

重點概念

首先 SAS Data Quality 主要是組織強大資料評估、改善和監控功能,同時這些功能可以用於獨立的資料品質專案或用於資料整合環境,以利支援資料治理,其重點主要有兩個部份,分別為:

  1. 資料管理平台架構。
  2. 資料管理方法。

接著資料管理平台架構主要有三層,分別為客戶層、資料層和伺服器層。在客戶層中主要有 Data Management Studio 桌面客戶端應用程式,為了使其正常執行皆必須要能夠存取資料層的來源資料,來源資料可以是資料表、SAS 資料集、檔案、…等多種來源資料的格式。此外我們還要能夠存取品質知識庫,簡稱為 QKB,QKB 主要是 Data Management Studio 應用程式中附加的檔案集合,其中包括預先定義的演算法,以利在不同流程中使用相關演算法。以及我們還要存取參考資源,又稱為資料包,我們使用 Data Management Studio 應用程式使用不同類型的參考資源進行資料的驗證,同時我們還必須透過 Data Management Studio 應用程式建立儲存庫,以利提供一個可以工作的地方。因此我們主要透過 Data Management Studio 應用程式進行下述事項,分別為:

  1. 定義資料連線。
  2. 建立 QKB 與資料包的連線。
  3. 建立儲存庫。
  4. 建立資料探索。
  5. 建立設定檔案。
  6. 建立資料工作。
  7. 建立處理工作。

此外除了 Data Management Studio 應用程式,我們還能夠使用伺服器層的 Data Management Server 伺服器,在大部份的情況下,我們透過 Data Management Studio 應用程式設定想要用於工作的地方,以利我們使用資料,並且我們還可以將其導入 Data Management Server 伺服器中進行處理。因此若工作和設定檔案是由 Data Management Studio 應用程式所建立將能夠匯入至 Data Management Server 伺服器中,以利使用更強大的能力進行處理,請注意相關 QKB 和資料包也必須讓 Data Management Server 伺服器有權限進行存取。當然我們也能夠透過驗證伺服器授權管理 Data Management Studio 應用程式中的某些元件。

再來資料管理平台架構中主要還有 Web Studio 和 SAS Business Data Network 兩種網站應用程式,其中 Web Studio 有提供參考資料管理者的功能允許我們創建特定參考的資料來源,然後在客戶層 Data Management Studio 應用程式或伺服器層 Data Management Server 伺服器進行應用。至於 SAS Business Data Network 應用程式則是在協作環境中建立業務條款,主要會收集關於我們在組織中使用的所有資料元件的所有資訊,以及在業務資料網路中可能使用其它類型的備註說明。

最後 DataFlux 資料管理方法主要是一個循序漸進的流程,主要應用於執行各種資料管理任務,它是三階段的方法,分別為規劃、執行和監督。在計劃階段中,我們需要確保定義任何需要使用的項目,藉由理解資料,以利發現資料中可能存在的任何異常情況。在執行階段中,我們需要設計不同的面向處理資料,並且在弄清楚我們需要對資料做些什麼工作之後,我們就能夠去執行資料工作,並且清理資料。最後在監督階段中,我們可以製定一套業務規則,以利評估現有資料或新的資料,並且控管資料進入流程中。此外這規劃、執行和監督三階段的方法是週期性,以利當我們取得新的資料時,藉由規劃、執行和監督三階段的方法嘗試改善資料的品質。

相關資源

SAS 資料科學 (4)

教學目標

初步了解 SAS 五大資料管理最佳實務支援進階分析和深入洞察。

重點概念

首先我們都知道乾淨的水對於生存非常重要,可是若是水源被汙染時,除非我們過濾的很乾淨,否則將會造成許多負面的影嚮,因為為了要有更好的結果,所以我們需要可以用氟化物豐富水分,過濾掉雜質,並在適當的水壓和溫度下運送。同樣的無汙染的資料將會是成功企業最核心的關鍵,特別是以資料分析為主的企業。但是根據不同需求從資料倉儲或資料湖中準備針對分析的資料時,此時將會面臨所多未經過濾的資料,導致難以進行管理和分析。

接著大部份資料科學家會花模型開發 50% 至 80% 的時間準備資料,這大大減少了深入理解的時間。所以對於準備資料分析的資料科學家和商業分析師,SAS 所提供的資料管理技術就像是資料過濾器,提供了統一的平台,讓我們存取、清理、轉換和結構化資料,以利進行任何分析,同時若是日常維護工作做得好,則可以降低資料準備的困難,以利提高生產力,透過資料帶來更多價值,更進一步做出最佳的決策和敏捷性。

再來 SAS 提出五大資料管理最佳實務支援進階分析和深入洞察,分別為:

  1. 簡化:簡化存取傳統和現代的資料。
  2. 強化:透過進階分析技術加強資料學家的深入理解。
  3. 清理:清理資料且建構品質至現有的流程中。
  4. 成形:使用彈性的操作技術準備資料。
  5. 分享:跨資料管理和分析領域分享中繼資料。

簡單來說,原始資料建議透過「簡化」、「強化」、「清理」、「成形」和「分享」這五個階段的最佳實務,以利轉換為已經準備就續的分析資料。資料科學家和商業分析師經常會提前想知道將會進行分析或視覺化的資料,但是他們很難知道哪些變數是最適合建模應用中具有最高預測價值的變數。此時識別和存取正確資料將會是關鍵的第一步,在建立有效的模型之前,我們需要完整且可靠的資料,以利進行分析,這將會是五大資料管理最佳實務能夠協助的部份。

最後 SAS 針對進階分析技術主要讓我們透過資料進行最佳的決策,因為傳統 ETL 和資料整合技術沒有複雜的統計分析能力,但是 SAS 平台卻有提供複雜的統計分析能力至 ETL 流程中,像是頻率分析、摘要統計和關聯變數,所謂頻率分析不僅是簡單的計數,以利資料科學家和商業分析師協助識別出異常值、遺漏值,平均值、中位數和預測分析、…等頻率分析之應用。所謂摘要統計主要透過所提供的測量值描述資料、以利資料科學家和商業分析師協助了解資料的分佈和標準差,因為資料不一定是常態分佈。所謂關聯分析主要是在分析模型建構的過程中使用相關性,以利資料科學家和商業分析師透過了解資料中變數潛在相關性,是互相影響還是獨立變數,確認哪些變數和變數組合將有助於預測能力的提升。

總結若我們遵循 SAS 提出五大資料管理最佳實務將可以讓企業組織從進階分析中獲取完整的價值,同時透過領先業務的方法存取所有類型的原始資料,並且允許我們準備任何解決不同問題分析目的的資料,同時將準備資料的知識整合至分析模型中,以利企業進行自動化的決策流程。

相關資源

SAS 基本介紹 (15)

教學目標

初步了解 SAS 資料管理解決方案的資料工作基本概念。

重點概念

首先資料工作主要是透過 DataFlux Data Management Studio 工具建立與執行處理資料的流程,每一個資料工作將會設定資料處理從來源至目的之操作流程,例如我們可以先透過來源節點取得來源資料,接著透過處理節點進行來源資料的處理,最後透過輸出節點輸出來源資料處理之後的資料。若當資料工作被儲存在資料工作資料夾樹狀結構中時,則該資料工作將會被單獨執行或被其它資料工作所使用。此外若是資料工作被設定為在處理工作中的資料工作節點時,則資料工作節點將會封裝處理工作的資料處理操作,例如在任何資料工作中將可以加入資料工作節點進行資料處理的流程。

接著建立資料工作的標準流程主要有五個步驟,分別為:

  1. 規劃資料工作。
  2. 建立資料工作。
  3. 設定資料來源。
  4. 設定資料處理。
  5. 設定資料輸出。

當我們建立資料工作完成之後,我們可以執行資料工作的標準流程主要有三個步驟,分別為:

  1. 預覽資料工作的資料來源。
  2. 執行資料工作的資料處理。
  3. 審查資料工作的資料輸出。

再來每個資料工作皆是由許多不同類型的節點所組成,主要有十大類型,分別為:

  1. 資料工作 (Data Job)。
  2. 資料輸入 (Data Input)。
  3. 資料輸出 (Data Output)。
  4. 資料整合 (Data Integration)。
  5. 品質分析 (Quality)。
  6. 實體解析 (Entity Resolution )。
  7. 監控管理 (Monitor)。
  8. 輪廓管理 (Profile)。
  9. 實用功能 (Utility)。
  10. 豐富功能 (Enrichment)。

其中所謂資料工作節點主要是參考檔案系統中的資料工作檔案進行資料處理操作,所謂資料輸入主要是透過資料來源或設定 SQL 查詢設定不同類型的輸入至資料工作中。所謂資料輸出主要是透過資料目標或文字檔案輸出設定從資料工作中輸出多種類的資料。所謂資料整合主要是透過資料排序、資料連結、資料聯集、網頁服務、…等資料處理方式處理資料。所謂品質分析主要是分析資料以利提供高品質的的資料,像是性別分析、識別分析、標準化、解析、… 等分析方式。所謂實體解析主要是執行記錄對應,記錄對應合併多個檔案或單一檔案多筆記錄至單一記錄,像是對應代碼、分群、… 等對應方式。所謂監控管理主要是透過程式監控資料的處理流程,此時可以搭配執行商業規則和客制指標。所謂輪廓管理主要是透過程式從資料輪廓分析處理輸出的資料,像是模式分析、統計分析、頻率分佈、…等。所謂實用功能主要是執行特定的任務,像是表達式、資料驗證、分支、…等。最後所謂豐富功能主要是驗證資料,像是地址驗證、國家、電話、…等。

最後資料工作節點有非常多的類型,但是到底有哪些是重要的資料工作節點必須了解呢? 請參考下表整理。

節點類型 節點名稱 描述
Data Job Data Job (reference) 主要是指向在檔案系統中的資料工作檔案 (*.dds) ,在資料工作中使用其它資料工作節點進行資料處理。
Data Input Data Source 設定資料表當成資料工作的資料輸入。
Data Input SQL Query 設定 SQL 查看從一個或多個資料表中選擇資料,同時將結果資料當成資料工作的資料輸入。
Data Input Text File Input 設定分隔符號文字檔當成資料工作的資料輸入。
Data Output Data Target (Update) 輸出多種資料格式的資料,並且允許更新存在的資料。
Data Output Data Target (Insert) 輸出多種資料格式的資料至新的資料來源,或者覆寫存在的資料。
Data Output Text File Output 輸出資料工作結果的純文字檔案。
Data Integration Data Sorting 重新排序資料工作中的資料集。
Data Integration Data Joining 連結兩個資料集,類似於 SQL 中的 JOIN 語法。
Data Integration Data Union 聯集兩個資料集,類似於 SQL 中的 UNION 語法。
Data Integration SQL Execute 執行任何有效的 SQL 語法。
Qulity Gender Analysis 從名字清單中決定性別,結果會被放置新欄位。
Qulity Gender Analysis (Parse) 從已經進行解析的資料中透過名字清單中決定性別,結果會被放置新欄位。
Qulity Indentification Analysis 決定資料文字相關的類型,例如決定是個人名稱或組織名稱。
Qulity Parsing 分割多欄位值至多個或單個欄位中。
Qulity Standardization 使相似的項目相同,例如 SAS 和 SAS Institute Inc 因為是相似的項目所以相同。
Qulity Standardization (Parse) 從已經進行解析的資料中使相似的項目相同,例如 SAS 和 SAS Institute Inc 因為是相似的項目所以相同。
Right Fielding Right Fielding 從單一欄位基於資料類型複製資料至另一個欄位主要會被識別分析定義所決定。
Entity Resolution Match Codes 設定重複記錄被對應的標準所識別。
Entity Resolution Match Codes (Parsed) 從已經進行解析的資料中設定重複記錄被對應的標準所識別。
Entity Resolution Clustering 建立分群 ID 新增至輸入每列中,許多列會根據對應的分群標準設定分群 ID,
Entity Resolution Cluster Aggregation 接受分群節點的結果速,並且進行分群聚合,同時因為每個成員對應不同的對應代碼所以會有不同的分數。
Entity Resolution Cluster Analysis 比較對應分群中進行列配對決定是否符合。
Entity Resolution Sub-Clustering 類型分群節點,但是比較低層級。
Monitor Data Monitoring 套用任務至輸入資料表中,任何一個任務設定一個或多個商業規則和基於規則回傳結果觸發的事件,當事件被任務觸發時可被使用於監控資料品質。
Monitor Monitor Task Execution 允許我們執行將要監控資料的任務。
Monitor Execute Business Rule 允許我們選擇商業規則套用至資料列中當成資料工作的流程。
Monitor Execute Custom Metric 允許我們選擇客製指標套用至資料列中當成資料工作的流程。
Profile Pattern Analysis 查看資料來源的模式。
Profile Basic Statistics 產生資料來源的基本統計資訊。
Profile Frequency Distribution 增加頻率分佈輪廓至流程中。
Profile Basic Pattern Analysis 執行簡化版本的模式分析,主要允許我們針對字元集、數字和合併輸入執行模式分析。
Utilities Expression 允許我們新增 DataFlux Expression Engine Language 表達式至資料工作流程中。
Utilities Data Validation 分析資料內容和設定驗證的條件主要將被使用於過濾資料以利獲取更準確的資料。
Utilities Branch 允許增加 32 個表達式節點模擬從單一來源存取資料,依賴不同的設定資料將會從分支節點直接導至任何表達式節點或者資料暫存儲存在記憶體或硬碟快取中。

總結我們透過 DataFlux Data Management Studio 工具規劃與建立資料工作,搭配十種不同類型的節點,理論上能夠解決許多企業所面臨當進行資料擷取、轉換和載入時,產生的資料品質不佳的問題,但是往往企業所面臨多個系統整合的問題時將不會是僅透過單一解決方案就能夠解決,因此建議先縮小範圍和定位清楚 SAS 資料管理解決方案在企業中能夠解決的問題,再進行資料工作的規劃與建立,才不會在 SAS 資料管理解決方案系統上線營運時造成負責維運人員龐大的負擔。

相關資源

SAS 基本介紹 (14)

教學目標

初步了解 SAS 資料管理解決方案的 QKB 客製功能基本概念。

重點概念

首先我們可以客制化 Quality Knowledge Base (QKB) 對應資料,QKB 主要是透過語言學和啟發式演算法對應和清理集合的檔案,檔案中主要包括五個元素,分別為:

  1. Regular Expression (Regex) Libraries
  2. Vocabularies
  3. Schemes
  4. Grammars
  5. Phonetics Libraries

請注意 Format Library 不包括在 QKB 元素中,其檔案名稱為 (* .loc ) 主要是設定個別語言和地區,其中會包括資料類型和定義,定義主要就會使用上述五個元素。

接著我們會在 DataFlux Data Management Studio 主要目錄中選取「Tools」->「Customize」或開啟 DataFlux Data Management Studio 安裝目錄中的 CustMan.exe 開啟 QKB 的客制化視窗,當 QKB 的客制化視窗開啟時,將會載入目前的地區,此選項可以在「Tools」->「Options」->「Startup」中進行設定地區設定。

再來 QKB 的客制化視窗主要分成左右三個部份,右方主要為 Diagram 窗格、左方主要為 Dockable 窗格、以及下方主要為 Test 窗格。其中 Diagram 窗格主要顯示被選取定義的節點處理流程、Dockable 窗格主要顯示目前每一個 QKB 對應地區的資料類型和定義的樹狀結構檢視、以及 Test 窗格主要是針對測試的輸入進行測試的輸出。

最後在 Dockable 窗格中針對每個 QKB 檔案將會以樹狀結構檢視檔案中資料相關定義,選取定義之後將可以檢視定義的詳細資訊。然而除了檢視定義之外,還有檢視資料類型,我們主要在 Dockable 窗格中的資料類型和定義選取屬性開始屬性對話框,其中包括兩個欄位分別為 Name 和 Tokens,所謂 Name 主要是設定資料類型的名稱,所謂 Tokens 主要是列出資料類型的 Tokens,請注意資料類型主要是由一個至多個 Token 所組成,簡單來說,資料類型定義了內容的類型,其中包括許多對應資料邏輯和語義單元的子欄位,也就是所謂的 Token,例如描述個人姓名的資料類型,主要會包括稱謂、姓氏和名字等子欄位或者稱為 Token

總結客制化 Quality Knowledge Base (QKB) 對應資料主要重點在於地區、定義和資料類型,若我們能夠善用客制化 Quality Knowledge Base (QKB) 對應資料理論上就能夠有效的針對多個語言進行資料定義和類型的處理,以利了解資料背後的語意後進行更有價值的資料分析之應用。

相關資源