Leo Yeh's Blog

SAS 資料管理 (15)

教學目標

初步了解 Dataflux Data Management 資料管理的基本介紹。

重點概念

首先 DataFlux Data Management 資料管理的方法論主要是一個執行資料管理任務的流程,像是資料品質、資料整合、資料升級和主數據管理。當組織規劃採取行動和監控資料管理的專案時,我們就能夠建立在此基礎上最大化收益、控制成本和升級風險,其中主要有三個階段,分別為:

  1. 規劃:主要為連線資料、探索資料,建立資料檔案以及設計標準化綱要。
  2. 行動:主要為建立資料工作,以利進行品質和實體的解析。
  3. 監控:主要為建立和實作多元化的商業規則。

接著 DataFlux Data Management 資料管理的方法論的三個階段,又能夠再細分為六大步驟,分別為:

  1. 定義:任何資料管理專案的規劃階段皆是從這個重要的第一步開始,主要是定義人員、流程、技術和資料來源的地方。
  2. 探索:快速檢查公司內不同系統資料庫中的資料,具有多種不同的格式和相同資料的表達形式。此方法能夠讓我們瀏覽中繼資料,以利驗證資料管理程序中是否包含正確的資料來源。
  3. 設計:採用不同的結構、格式和資料來源,以利建立符合業務需求的環境,在此步驟中,業務和 IT 使用者將建立工作流程來強制執行資料品質和資料整合的業務規則,同時還能夠建立資料模型以利將資料儲存在統一資料來源中。
  4. 執行:資訊人員主要將業務使用者所定義的資料和規則進行執行的方法,主要有即時、批次和虛擬三種方法。同時相關商業規則可以在應用程式中重用和重新部署,將有助於提高企業中的資料一致性。
  5. 評估:透過所定義和執行商業規則,以利衡量新資料進入企業時的一致性、準確性和可性。其中關鍵資料指標的報表和儀表板是為業務人員和資訊人員所建立的,並且從資料監控報表中將能夠獲取用於改進和調整商業規則的資訊。
  6. 控制:任何資料管理專案的最後階段皆是檢查任何趨勢,以利驗證資料是否需要擴展使用或保留使用,其中針對不再有用的資料將會進行淘汰不再使用。

再來 DataFlux Data Management 資料管理的工具將能夠我們建立有效的資料治理平台,其主要提供強大的操作介面,以利完成重要的工作任務,分別為:

  1. 中繼資料分析:了解資料資源和任何企業中的來源擷取與組織中繼資料,也就是進行資料探勘。
  2. 資料輪廓:針對組織資料執行完整的評估,並且檢驗資訊資產的結構、完整性、適用性和關係。
  3. 資料品質:修正資料問題,並且針對跨來源的資料進行標準化,以及針對企業資訊建立整合的視圖表。
  4. 資料整合:從任何資料結構透過 ETL 或 ELT 方法和資料工作進行匯整資料和升級資料。
  5. 資料監控:建立針對品質的商業規則,以利提供我們持續監控資料和維護商業規則。
  6. 資料標準化:針對資料進行標準化主要以名稱和地址為主。
  7. 資料強化:增加新的資料元素至客戶和產品資料中,以利滿足組織的需求。
  8. 主數據管理:使用有結構和彈性的流程處理主數據的記錄。

最後 DataFlux Data Management 資料管理的工具主要會搭配品質資識庫 (Quality Knowledge Base,QKB) 中的定義類型進行有效的資料品質控管,其中定義類型主要有十種,請參考下表。

定義類型 描述
Case 轉換文字字串中的字元為小寫、大寫或適當格式。
Extraction 擷取文字字串的部份資訊和針對特定的資料類型指定至適當的 Token 中。
Gender Analysis 針對文字字串分析性別。
Identification Analysis 針對文字字串識別特別預先定義的類別。
Language Guess 針對文字字串猜測語言。
Locale Guess 針對文字字串猜測地區。
Match 針對文字字串產生對應碼,以利透過代表字元內容的對應碼進行模糊比較。
Parse 解析文字字串嘗試了解哪一個文字或片語應該會關聯哪一個資料類型。
Pattern Analysis 轉換文字字串至特定模式。
Standardization 轉換文字字串至標準格式。

總結 Dataflux Data Management 是個非常強大且完整的資料管理軟體,主要提供資料管理的方法論,並且將方法論中規劃、行動和監控三個階段細分為不同的步驟,再來透過相關資料管理工具和相關品質知識庫有效提升組織內的資料品質,以利後續進行進階分析的相關應用。

相關資源

⬅️ Go back