Leo Yeh's Blog

SAS 資料管理 (14)

教學目標

初步了解 DataFlux Data Management 中資料探索的基本介紹。

重點概念

首先當我們在組織中進行資料管理之前,需要先了解從任何企業中的資料來源識別資料所對應的中繼資料,也就是進行資料探索。至於所謂資料探索主要能夠識別冗餘的資料,並且從多個資料來源中擷取和組織中繼資料。此外中繼資料之間的關係能夠透過指定的商業資料類型和程序識別和針對資料進行分類。

接著資料探索主要是從資料庫中讀取資料,並且將選定資料表的字段分類為類別,此時這些類別已經在品質知識庫 (QKB) 中預先進行定義,同時資料探索 透過對應欄位名稱進行分類,將能夠確定資料是否為品質知識庫中特定類型的類別之一。

再來資料探索我們將能夠透過屬性設定分析方法,其主要代表我們想要如何建立資料探勘報表,主要有三種方法,分別為:

  1. 欄位名稱對應:主要使用對應定義和區域分析每一個欄位名稱,其中對應定義主要是使用特定內容的演算法進行合併、解析、正規化、標準化、發音、… 等識別潛在於資料庫資料表中的重複記錄,並且搭配敏感度進行資料探索。
  2. 欄位名稱分析:使用識別分析定義和區域分析每一個欄位名稱,其中識別定義主要是使用基於猜測的演算法進行基於特定值的資料元素識別,此時我們將能夠使用品質知識庫中的資訊識別分析定義進行資料探索。
  3. 樣本資料分析:使用識別分析定義和區域分析每一個欄位名稱,其中識別分析定義主要是包括邏輯和參考資料,以利進行決定,它不像欄位名稱對應和欄位名稱分析的方法需要檢驗中繼資料,它主要是檢驗小樣本的實體資料,並且使用樣本大小設定多少記錄數進行資料探索。

最後我們能夠透過資料探索的報表審閱欄位對應、定義對應、資料表對應、… 等結果,同時我們更能夠查看樣本資料對應結果,立即了解資料探索相關工作的對應資訊是否正確。

相關資源

⬅️ Go back