Data Quality

資料治理 Data Quality (1)

教學目標

初步了解資料品質的基本概念。

重點概念

首先資料品質是資料治中非常關鍵的流程,主要影響以資料進行決策的準確性,其目標主要透過可靠的資料管理提升資料在組織中使用的價值和收益。我們可以透過 PDCA 循環過程進行資料品質管理,分別為:

  1. 規劃:主要識別資料治理的需求,制定資料品質管理的方案,定義資料品質指標。
  2. 執行:主要評估資料品質,執行資料的清理,提升資料品質。
  3. 檢查:主要監控資料品質,確認資料品質指標符合標準。
  4. 動作:主要優化資料品質管理的方案。

接著影響資料品質的因素主要來自於以下四個方面,分別為:

  1. 資訊因素:中繼資料描述錯誤導致資料品質問題。
  2. 技術因素:資料處理技術環節錯誤導致資料品質問題。
  3. 流程因素:系統作業和人工操作流程設定導致資料品質問題。
  4. 管理因素:人員素質和管理機制方面的原因導致資料品質問題。

再來定義資料品質的指標主要有四大方面,分別為:

  1. 完整性:資料是否存在遺失情況。
  2. 準確性:資料是否存在異常錯誤。
  3. 一致性:資料是否遵循標準規範。
  4. 即時性:資料是否滿足分析週期。

最後資料品質的規則主要是提升資料品質主要有四大管理流程,分別為:

  1. 記錄滿足與不滿足業務需求的資料。
  2. 分析滿足與不滿足業務需求的資料比例和主要問題。
  3. 產生通知事件,即時反應可能潛在的資料品質問題。
  4. 發佈預警通知,預先告知業務部門存在的資料品質問題。

總結透過資料品質進行指標驗證,以利發現資料品質問題的原因,可能來自於資料標準、組織人員、管理流程、技術環節、…等,此時我們能夠制定適當的改善方案,特別是提升資料品質的管理流程。

相關資源

SAS 資料科學 (6)

教學目標

初步了解 DataFlux Data Management Studio 工具的概念,主要包括操作介面、儲存庫類型、資料管理結構和資料連線。

重點概念

首先我們主要需要了解 DataFlux Data Management Studio 的操作介面,並且進行操作,分別為:

  1. 在畫面左上角有首頁選項卡,以利我們返回首頁和切換不同的項目。
  2. 在畫面上方將會看到主目錄和工具列,這兩者總是並排放置。
  3. 在畫面左方導航區域選擇提升列,導航區域中選定的項目主要控制資訊區域中的內容。
  4. 點選主頁選項卡中的任何一個項目時,則會在左方出現資源區域。
  5. 點選主頁選項卡中的任何一個項目時,則會在下方出現詳細資訊區域。

接著我們需要了解什麼是儲存庫?當我們開始使用 Data Management Studio 工具時,一開始就是要定義工作地點,也就是儲存庫。儲存庫主要是定義有關於建構各種項目或物件的中繼資料的集合,類似於資料作業或設定檔案,因此儲存庫主要被用於組織工作和查看連結關係。此外當我們建立一個新的儲存庫時,主要有兩種類型的部份,分別為:

  1. 資料儲存區。
  2. 檔案儲存區。

其中資料儲存存區主要有專屬的檔案類型為 RPS ,同時我們也可以指定一個資料庫,像是我們能夠將儲存庫資訊儲存在 Oracle 資料庫或 SQL Server 資料庫中的多個資料表中,再透過定義的資料庫連接從資料庫中存取儲存庫資訊。至於檔案儲存區主要是我們可以指定基於檔案進行資料作業的區域,同時若我們要建構任何資料作業清理資料,此時就必須要擁有檔案儲存區。

再來當我們描述資料管理結構時,其中一部份就是包括品質知識庫,又稱 QKB。所謂 QKB 主要是可以執行資料清理的文件集合。所謂清理資料主要是將資料變的更加可用,同時也能夠讓我們進行解析資料、標準化資料、收集資料、…等資料清理演算法的作業。然而在不同國家針對資料進行標準化的方式可能會有所不同,所以 QKB 被分解為不同語言環境的單元,以利我們針對不同類型的資料提供特定於語言環境的定義。若我們需要存取不同的 QKB,僅需要透過 Data Management Studio 的主頁選項卡中的管理提升欄,在「Quality Knowledge Bases」項目中新增不同的 QKB。此外若我們需要在工作中使用 QKB 中的相關演算法,則會需要先確保可用的項目,這時我們可能會需要提供另一個參考資源,所謂參考資源,又稱資料包主要是第三方資料庫,我們可以使用資料庫來驗證資料中的資訊是否正確,因此描述資料管理結構時,主要有兩個重點,分別為:

  1. 品質知識庫。
  2. 參考資源。

最後當我們準備開始使用 Data Management Studio 時,我們必需要確保存取想要使用的資料,也就是資料連線,所謂資料連線主要有五種類型,分別為:

  1. ODBC 連線。
  2. ODBC 連線 (啟用網域)。
  3. SAS 資料集連線。
  4. Federation 伺服器連線。
  5. 客制化連線。

並且在 Data Management Studio 工具中,我們從資料提升列中定義資料連線。此外透過資料瀏覽器將能夠在還沒有使用資料之前先查看資料實際值,並且進行序、過濾和搜索,以利初步了解資料,預設情況下,資料瀏覽器只會顯示 500 筆記錄。

總結若要開始使用 DataFlux Data Management Studio 應用程式時,最好先了解操作介面、儲存庫類型、資料管理結構和資料連線的概念,以利準備為於分析和報表用的資料。

相關資源

SAS 資料科學 (5)

教學目標

初步了解 SAS Data Quality 提供組織強大資料評估、改善和監控功能的基本概念。

重點概念

首先 SAS Data Quality 主要是組織強大資料評估、改善和監控功能,同時這些功能可以用於獨立的資料品質專案或用於資料整合環境,以利支援資料治理,其重點主要有兩個部份,分別為:

  1. 資料管理平台架構。
  2. 資料管理方法。

接著資料管理平台架構主要有三層,分別為客戶層、資料層和伺服器層。在客戶層中主要有 Data Management Studio 桌面客戶端應用程式,為了使其正常執行皆必須要能夠存取資料層的來源資料,來源資料可以是資料表、SAS 資料集、檔案、…等多種來源資料的格式。此外我們還要能夠存取品質知識庫,簡稱為 QKB,QKB 主要是 Data Management Studio 應用程式中附加的檔案集合,其中包括預先定義的演算法,以利在不同流程中使用相關演算法。以及我們還要存取參考資源,又稱為資料包,我們使用 Data Management Studio 應用程式使用不同類型的參考資源進行資料的驗證,同時我們還必須透過 Data Management Studio 應用程式建立儲存庫,以利提供一個可以工作的地方。因此我們主要透過 Data Management Studio 應用程式進行下述事項,分別為:

  1. 定義資料連線。
  2. 建立 QKB 與資料包的連線。
  3. 建立儲存庫。
  4. 建立資料探索。
  5. 建立設定檔案。
  6. 建立資料工作。
  7. 建立處理工作。

此外除了 Data Management Studio 應用程式,我們還能夠使用伺服器層的 Data Management Server 伺服器,在大部份的情況下,我們透過 Data Management Studio 應用程式設定想要用於工作的地方,以利我們使用資料,並且我們還可以將其導入 Data Management Server 伺服器中進行處理。因此若工作和設定檔案是由 Data Management Studio 應用程式所建立將能夠匯入至 Data Management Server 伺服器中,以利使用更強大的能力進行處理,請注意相關 QKB 和資料包也必須讓 Data Management Server 伺服器有權限進行存取。當然我們也能夠透過驗證伺服器授權管理 Data Management Studio 應用程式中的某些元件。

再來資料管理平台架構中主要還有 Web Studio 和 SAS Business Data Network 兩種網站應用程式,其中 Web Studio 有提供參考資料管理者的功能允許我們創建特定參考的資料來源,然後在客戶層 Data Management Studio 應用程式或伺服器層 Data Management Server 伺服器進行應用。至於 SAS Business Data Network 應用程式則是在協作環境中建立業務條款,主要會收集關於我們在組織中使用的所有資料元件的所有資訊,以及在業務資料網路中可能使用其它類型的備註說明。

最後 DataFlux 資料管理方法主要是一個循序漸進的流程,主要應用於執行各種資料管理任務,它是三階段的方法,分別為規劃、執行和監督。在計劃階段中,我們需要確保定義任何需要使用的項目,藉由理解資料,以利發現資料中可能存在的任何異常情況。在執行階段中,我們需要設計不同的面向處理資料,並且在弄清楚我們需要對資料做些什麼工作之後,我們就能夠去執行資料工作,並且清理資料。最後在監督階段中,我們可以製定一套業務規則,以利評估現有資料或新的資料,並且控管資料進入流程中。此外這規劃、執行和監督三階段的方法是週期性,以利當我們取得新的資料時,藉由規劃、執行和監督三階段的方法嘗試改善資料的品質。

相關資源