Leo Yeh's Blog

SAS 資料科學 (6)

教學目標

初步了解 DataFlux Data Management Studio 工具的概念,主要包括操作介面、儲存庫類型、資料管理結構和資料連線。

重點概念

首先我們主要需要了解 DataFlux Data Management Studio 的操作介面,並且進行操作,分別為:

  1. 在畫面左上角有首頁選項卡,以利我們返回首頁和切換不同的項目。
  2. 在畫面上方將會看到主目錄和工具列,這兩者總是並排放置。
  3. 在畫面左方導航區域選擇提升列,導航區域中選定的項目主要控制資訊區域中的內容。
  4. 點選主頁選項卡中的任何一個項目時,則會在左方出現資源區域。
  5. 點選主頁選項卡中的任何一個項目時,則會在下方出現詳細資訊區域。

接著我們需要了解什麼是儲存庫?當我們開始使用 Data Management Studio 工具時,一開始就是要定義工作地點,也就是儲存庫。儲存庫主要是定義有關於建構各種項目或物件的中繼資料的集合,類似於資料作業或設定檔案,因此儲存庫主要被用於組織工作和查看連結關係。此外當我們建立一個新的儲存庫時,主要有兩種類型的部份,分別為:

  1. 資料儲存區。
  2. 檔案儲存區。

其中資料儲存存區主要有專屬的檔案類型為 RPS ,同時我們也可以指定一個資料庫,像是我們能夠將儲存庫資訊儲存在 Oracle 資料庫或 SQL Server 資料庫中的多個資料表中,再透過定義的資料庫連接從資料庫中存取儲存庫資訊。至於檔案儲存區主要是我們可以指定基於檔案進行資料作業的區域,同時若我們要建構任何資料作業清理資料,此時就必須要擁有檔案儲存區。

再來當我們描述資料管理結構時,其中一部份就是包括品質知識庫,又稱 QKB。所謂 QKB 主要是可以執行資料清理的文件集合。所謂清理資料主要是將資料變的更加可用,同時也能夠讓我們進行解析資料、標準化資料、收集資料、…等資料清理演算法的作業。然而在不同國家針對資料進行標準化的方式可能會有所不同,所以 QKB 被分解為不同語言環境的單元,以利我們針對不同類型的資料提供特定於語言環境的定義。若我們需要存取不同的 QKB,僅需要透過 Data Management Studio 的主頁選項卡中的管理提升欄,在「Quality Knowledge Bases」項目中新增不同的 QKB。此外若我們需要在工作中使用 QKB 中的相關演算法,則會需要先確保可用的項目,這時我們可能會需要提供另一個參考資源,所謂參考資源,又稱資料包主要是第三方資料庫,我們可以使用資料庫來驗證資料中的資訊是否正確,因此描述資料管理結構時,主要有兩個重點,分別為:

  1. 品質知識庫。
  2. 參考資源。

最後當我們準備開始使用 Data Management Studio 時,我們必需要確保存取想要使用的資料,也就是資料連線,所謂資料連線主要有五種類型,分別為:

  1. ODBC 連線。
  2. ODBC 連線 (啟用網域)。
  3. SAS 資料集連線。
  4. Federation 伺服器連線。
  5. 客制化連線。

並且在 Data Management Studio 工具中,我們從資料提升列中定義資料連線。此外透過資料瀏覽器將能夠在還沒有使用資料之前先查看資料實際值,並且進行序、過濾和搜索,以利初步了解資料,預設情況下,資料瀏覽器只會顯示 500 筆記錄。

總結若要開始使用 DataFlux Data Management Studio 應用程式時,最好先了解操作介面、儲存庫類型、資料管理結構和資料連線的概念,以利準備為於分析和報表用的資料。

相關資源

⬅️ Go back