Operational Data Store

資料處理 Operational Data Store (1)

基本介紹

教學目標

初步了解營運資料儲存 (Operational Data Store,ODS) 的概念。

重點概念

企業有許多不同的應用系統,每個系統皆有不同的資料格式,可能是結構化或非結構化的資料,為了業務的需要就必須透過營運資料儲存 (Operational Data Store,ODS) 將應用系統中的相關資料轉換成適當的檔案格式,例如: 平面檔案 (Flat File) 以最小的空間儲存結構化資料,可分為固定長度或可變長度,也就是所謂 CSV 檔,接著載入至資料倉儲進行企業的分析應用與資料管理。

在大多數的企業中主要是由營運環境和資料倉儲環境建構應用於每天進行處理與決策的骨架,其中經常性的資料市集會從資料倉儲出取出以利進行分析。在不同的環境有不同資料結構的類型需求,其本上可以分成線上交易處理資料、整合資料和歷史資料,一般來說線上交易處理資料會經由 ETL 處理轉換成歷史資料和整合資料,其中整合資料主要是以系統記錄 (System of record) 或單一的事實版本 (Single version of truth) 為主進行建立基礎以利分析處理之應用。

然而當我們需要線上交易處理的整合這種不同類型的資料結構時,就會需要營運資料儲存 (Operational Data Store,ODS),企業對需要營運資料儲存主要是因為其應用操作系統無法有效進行整合和難處理,當企業需要整合資料卻無法修改已經存在的相關系統環境時就需要營運資料儲存。此外也能夠透過營運資料儲存將線上資料更新至資料倉儲中,此時營運資料儲存就必須具備高效能的線上交易處理環境。

至於營運資料儲存與資料倉儲皆是以主題導向的整合資料為主,但是營運資料儲存能夠獨立進行更新、刪除和增加的短暫當時的資料,而資料倉儲主要儲存不同時間的長期歷史的資料。因此營運資料儲存根據處理時間的不同主要可以分為三種類型,類型一以毫秒 (Milliseconds) 為時間單位進行資料同步,類型二以小時 (Hours) 為時間單位進行資料同步,類型三以天 (Days) 為時間單位進行資料同步,根據不同的需求選擇適合類型的營運資料儲存的系統環境,一般來說企業皆以類型三的營運資料儲存為主。此外不同來源資料可能會需要進行整合會有前後相依關係的問題,此時在營運資料儲存和資料倉儲之間就會有臨時區域 (The Staging Area) 等待資料完整後才會進行整合轉換。

比較項目 資料倉儲 營運資料儲存 應用操作系統
建立目的 決策支援 即時監控 業務操作
服務對象 企業管理 業務管理 業務處理
儲存週期 長期 短期 即時
處理頻率 非即時 非即時/即時 即時
主要功能 分析功能 分析功能/事務處理 事務處理
技術實作 OLAP OLAP/OLTP OLTP
功能結構 集中 相對集中 分散
資料類型 匯整資料/明細資料 明細資料 明細資料
資料大小

表一、DW、ODS 和 AP 比較表

最後銀行有許多核心系統,例如: Temenos T24 Core Banking、Misys FusionCapital Summit 等針對不同業務處理的核心系統,若要整合出應用分析的戰略報表就必須必過營運資料儲存將核心系統中的原始資料轉換為正規化後資料格式再導入至資料倉儲中,以避免資料倉儲成為垃圾場 (Garbage Dump) 影響分析決策之應用,也就是所謂 ETL 轉換而非 ELT 轉換之資料處理的差別。

相關資源

資料處理 Data Warehouse (1)

基本介紹

教學目標

初步了解資料倉儲的開發方法,主要可以分為由上至下和由下至上的整體設計方法。

重點概念

資料倉儲 (Data Warehouse,DW) 主要是一個支持決策的數據池,更是個企業用於儲存目前資料和歷史資料的資料庫,最早是在 1988 年由 IBM 引入了企業資料倉儲 (Business Data Warehouse,BDW) 的概念,主要為企業資訊系統的關鍵元件,直到 1993 年 Bill Inmon 發表「Building the Data Warehouse」的入門書籍,主要完整的介紹資料倉儲的概念,以及 1996 年 Ralph Kimball 發表 「The Data Warehouse Toolkit」的進階書籍,主要介紹如何透過多維度的設計,用於提高以查詢為中心的決策支援系統之資料倉儲架構。

然而資料倉儲主要有三種類型分別為:

  1. 企業資料倉儲 (Enterprise Data Warehouse,EDW)
    主要關注支援整個企業決策的大型資料庫,會將不同來源的資料匯整成標準資料模型,更進
    一步支援多種不同決策支援系統提供相關資料,也就是 Inmon 所提出由上至下的資料倉儲之架構,主要使用者為 IT 人員。例如: 以 Teradata 為企業資料倉儲之應用,常用資料建模工具,像是實體關聯圖和資料流程圖,以及每日透過 ETL 批次進行資料轉換,針對目前資料表產生歷史資料表,此外搭配 IBM Cognos Business Intelligence 解決方案即可進行企業為主的分析。

  2. 資料市集 (Data Mart)
    主要關注於特別的主題或部提供高品質且一致性的資料模型和資料內容,並且為了資料一致性和成本考量下通常會獨立資料市集,簡單來說就是支援特定業務決策的小型資料儲倉,並非企業資料倉儲,也就是 Kimball 所提出由下至上的資料倉儲之架構,主要使用者為一般人員。例如: 以 Teradata 為企業資料倉儲之應用,但是為了不同部門決策分析的需求而採用 SAS Visual Analytics 支援特定業務決策之分析,則必需先將 Teradata 企業資料倉儲中的相關資料轉換至 SAS 的資料庫中 (In-memory 或 HDFS),才能夠進行業務為主的分析。

  3. 營運資料儲存 (Operational Data Store,ODS)
    主要關注資料會在整個業務營運的過程中不斷更新,主要是將多個系統中的最新資料匯整成資料表,應用於核心相關的即時決策分析、網路服務和資料轉換。例如: 以 Teradata 為企業資料倉儲之應用,但是有許多的系統資料必須轉換至資料倉儲,此時就會透過 ODS 進行資料轉換,類似於動態資料倉儲 (Active Data Warehouse,ADW) 概念,又稱即時資料倉儲 (Real-time Data Warehouse,RDW),此外也可透過 ODS 將資料倉儲中的資料轉換至不同核心系統之資料庫中,像是 Microsoft SQL Server 資料庫,進行核心系統的應用為主的分析。

總結隨著業務需求的發展,資料倉儲在不同階段,針對查詢分析、批次處理和事件觸動等操作分配不同的比例進行最適當之應用。

相關資源