Data Warehouse

資料分析 Data Management Solutions for Analytics (1)

基本介紹

教學目標

初步了解資料倉儲和資料管理解決方案的分析應用。

重點概念

Gartner 國際研究機構在 2016 年發表一篇有關資料儲存和資料管理解決方案的分析應用,目前的企業皆需要透過資料管理的解決方案進行分析應用,主要在於管理和處理多元型態內部和外部的多元格式資料的能力,此時除了傳統資料倉儲廠商之外,更有全新的資料管理解決方案廠商能根據企業的不同需求進行分析應用,請參考圖一。


Magic Quadrant for Data Warehouse and Data Management Solutions for Analytics
圖一、Magic Quadrant for Data Warehouse and Data Management Solutions for Analytics

其中 Teradata 為領先者的角色,它主要提供資料倉儲內部和雲端的整合式解決方式,稱為統一資料架構 (Unified Data Architecture),優勢主要為針對不同市場的變化提供適合的解決方案,像是 Teradata 就能夠在 AWS 雲端主機運行,以及執行原生的 Hadoop 的相關分析應用,當然 Teradata 的處理效能、延展能力和工作負載管理皆是最重要的競爭優勢。

總結來說 Teradata 在於資料倉儲的分析應用在過去確實為領先者,但是在於資料管理方式的分析應用,則面臨許多競爭對手針對營運型分析提出適合的解決方案,像是 Oracle 、 Microsoft 、 IBM 和 SAP 等廠商,此時 Teradata 將不再是資料管理解決方案的分析應用之領先者了。

相關資源

資料處理 Data Warehouse (2)

基本介紹

教學目標

初步了解資料倉儲 (Data Warehouse) 相關應用的基本概念。

重點概念

資料倉儲定義是指將企業中各類營運資料經過擷取轉換整合成各主題式分析型資料庫,其中資料倉儲特性有主題導向、整合性、時間變動性和非暫存性,根據上述特性而進行資料倉儲與營運資料庫的資料庫之設計、處理與更新,將會有所差別。

資料倉儲 營運資料庫
設計方式 分析目的 交易目的
處理方式 大量資料 單筆資料
更新方式 每日批次轉換 即時線上更新

資料倉儲協助資料分析的相關應用主要有三種,分別為報表管理、資料探勘和名單篩選,首先報表管理主要可以分為自行開發與套裝工具兩種,當發現主要管理報表的需求無法藉由套工具的設定滿足時,才會有自行開發的必要性,否則建議採用套裝工具,藉由設定滿足管理報表的需求,以利後續的維護與管理。報表種類主要可以分為靜態報表與動態報表,所謂靜態報表就是無法進行互動的報表檔案,而動態報表就是可以進行互動的報表查詢。接著報表查詢的互動主要有二種,分別為即興式查詢與線上多維度分析,主要是針對單一觀點之客戶資訊主檔進行關聯式查詢,主要分析內容有三大類,分別為客戶類、通路類和產品類,因此客戶資訊主檔必須先整合銀行核心系統、開放式平台系統和各通路往來訊息等客戶資訊匯整成單一觀點,以利了解客戶的全貌,接著再藉由即興式查詢和多維度線上分析支援客戶輪廓、交易模式、產品績效等即時分析或定期報告,例如: 客戶分析、交易分析、貸款分析、…等報表、查詢和分析之應用。

接著資料探勘主要會針對客戶類、產品類和通路類進行客戶輪廓分析、客戶群集分析、客戶預測分析、…等以客戶為主的資料分析之應用。此時分析的資料類型又分為結構化資料和非結構化資料,結構化資料藉由建立模型產生主資料進行分析,再搭配 Hadoop 大數據平台整合非結構化資料,進行更深入的資料探勘之應用,像是預測建模、相似度分析、回歸分析、決策樹、類神經網路、自動分群、購物籃分析、…等資料探勘技術,以利產生適合的名單,其中名單類型可以是客戶、產品或通路等經由資料探勘進行分析之後產生的資料結果。

再來名單篩選的方式主要有三種,分別為以預設條件篩選客戶名單、以自訂組合條件篩選客戶名單和配合專案條件篩選客戶名單,通常企業中會藉由名單的產生以利提升行銷活動帶來的效益。此時為了能夠有效針對不同的行銷活動提供適合的行銷名單,所以會導入行銷活動管理系統進行通路整合和協助產生行銷名單,並且配合行銷活動的管理流程,例如: 初始化、設計及建立->接觸策略->排程->追蹤回應->接觸客戶->產生名單->核准及執行,針對不同的行銷活動藉由挑選客戶資訊以利產生適合的行銷名單,將產品資訊以各種不同的通路傳遞訊息給適合的目標族群。

總結資料倉儲不僅能從營運、業務和行銷等不同角度切入協助資料分析之外,未來更應該發展即時性資料倉儲,以利客戶為基礎的資料探勘之相關分析應用,並且能在時效之內推薦客戶最適合的產品組合。

相關資源

資料處理 Database Marketing (1)

基本介紹

教學目標

初步了解資料庫行銷 (Database Marketing) 的基本概念。

重點概念

資料庫行銷主要是透過客戶資料庫進行分析,以在不同通路產生針對專屬個人化的行銷訊息。其中客戶資料庫主要包括了消費客戶和潛在客戶的個人資料和交易資料,接著藉由資料探勘的應用更進一步達成精準行銷的目的。然而在金融業中許多客戶相關的大量資料皆會匯整至資料倉儲 (Data Warehouse) 中,因此資料庫行銷通常會與資料倉儲進行整合應用,主要會藉由撰寫 ETL 批次程式針對消費客戶的個人資料與交易資料匯入至資料庫行銷的相關系統中進行資料處理,產生不同通路精準行銷的客戶名單。

接著許多客戶資料主要是由互動產生,例如: 開啟電子直效行銷 (eDM) 閱讀內容,並且點擊內容中的超連結。此時若要針對目標族群進行一對一行銷的效果時,就必須將互動產生的回應資料寫入至資料庫中,藉由這些回應資料再進行資料處理與資料探勘等應用,隨時修正消費客戶的相關資料,並且找出潛在客戶的相關資料,也因此又稱此類型的行銷模式為學習型行銷,當客戶回應資料越多則就越了解客戶,客戶就是市場,所以當掌握客戶資料時就是掌握了市場。然而行銷通路非常多元化,例如: 電子直效行銷、簡訊、網站、APP、…等,金融業通常會由許多不同的合作廠商進行相關應用的程式開發,此時藉由撰寫 ETL 批次程式將回應資料寫入至資料倉儲中,以利未來進行客戶整合分析,了解產品的目標族群。

此外金融業除了可以透過資料倉儲了解到產品的目標族群,更進一步以資料倉儲為基礎建立主資料管理 (Master Data Management,MDM) 的架構,針對系統客戶關係管理系統、金融交易系統 、…等與客戶相關資料系統進行主資料整合確保資料品質,以利計算出客戶取得成本、服務成本、貢獻度、…等價值。為了達到此目的就需要藉由撰寫 ETL 批次程式將相關系統中的資料寫入至資料倉儲中,以利計算客戶實際交易的終生價值。

最後目前金融業的行銷考量大部份逐漸由產品佔有率轉換成個人佔有率,簡單來說就是客戶買了任何金融產品,就能藉由資料分析出適當的行銷通路推薦適合該客戶其它金融產品。此外在金融業中每檔行銷活動皆會由許多人合力完成,此時就必須藉由 ETL 批次程式自動化流程加速檢驗與驗證行銷活動的市場成效,立即在第一時間進行調整,以利達到精準行銷。

相關資源

資料處理 Data Integration (1)

基本介紹

教學目標

初步了解資料整合 (Data Integration,DI) 的概念。

重點概念

資料整合主要可以分為企業應用與互聯網應用,有很多的原因會導致企業資料分散在多個不同的資料庫中,例如: 企業併購、部門合併,特定需求的專案、…等,因此在企業進行內部重組時,應該適時的進行調整與對應。此外互聯網中有成千上萬的網站提供特定主題領域的資訊,例如: 影劇、音樂、美食、旅遊、新聞、…等,此時面臨最大的困難為大規模資料庫的整合,資料會由不同的人用不同的語言建立,質次提取資料相當困難,因此會藉由爬蟲的功能擷取出有意義的資訊,當然資料不一定正確且適用,因此需要透過不同的方法針對資料進行組合和排序。所以以資料整合為基礎建立的系統就是為了自行治理和差異結構的資料來特提供統一的存取入口,其中包括查詢處理、差異結構性、自行治理和資料來源的數量等重點處理應用。

接著資料整合目前面臨三個挑戰分別為系統原因、邏輯原因和管理原因,其中系統原因主要為不同的關聯式資料庫系統雖然已經支援 SQL 標準和 ODBC/JDBC 連線,但不同供應商的實作方式還是會有些差異,因此在整合過程中,這些差異就需要進行協調,再著如何有效地針對分散式資料庫和不同效能資料庫執行查詢更是一大挑戰。接著邏輯原因主要為在面對完全相同的資料庫應用需求時,不同人會計計出非常不同的資料庫模型,因此資料來自於多個資料來源時就會產生差異,並且資料的表達格式也有可能不同,例如: 貨幣單化為多國單位、語言為多國語系、…等,因此若把多個不同資料來源進行整合,必須解決彼此之間的語義差異結構的問題。再來管理問題主要為資料存取的共享和匿名等問題,所以資料整合應用是個很難的問題 永遠不會被徹底解決,因此實務上最重要的是設置適當的預期,此外越精確的資料花費的時間越多,但若能讓使用者以較小的時間代價從資料整合系統中獲得更精確的結果,將會是資料整合的目標。

然而資料整合的架構主要為資料倉儲與中介平台<->包裝器<->不同資料來源,在企業中會將多個獨立資料來源的資料載入至資料倉儲中,然後使用者就能以這些資料為基礎進行查詢操作,其中資料主要是透過 ETL 工具定期進行擷取、轉換和載入。然而資料倉儲開發之初並不是以資料整合為目的,而是進行更深入的分析而開發的工具,例如: 將交易系統中的資料經由 ETL 工具進行清理和匯整,並且載入至資料倉儲中以利決策支援查詢之應用。中間平台則是資料仍然儲存於原本的資料來源中,只有在需要查詢時才被存取,其關鍵在於語義對應,主要是將資料來源與中間平台進行關聯,此時資料整合系統就能讓使用者透過中間平台進行查詢之應用。此外資料整合系統的查詢與資料庫的查詢主要有兩個差別,第一為查詢需要從中介平台重寫成對應於資料來源的格式,第二為查詢執行需要根據不同的突發事件自動適應不同的查詢優化與執行。

總結資料整合主要分為企業應用和互聯網應用,企業應用也就是資料倉儲相關應用,例如: 銀行業針對核心系統的資料匯整至資料倉儲中,以利解決跨部門整合查詢分析的問題,重點在於專業領域的知識。互聯網應用也就是網站爬蟲相關應用,例如: 藉由爬蟲處理將互聯網中所有影劇連結和相關資訊匯整至看劇 App 中,重點在網路駭客的技術。以利解決人們看劇的龐大需求,然而未來最有趣的應用則是社交媒體的資料整合應用,不僅僅資料龐大且又要能即時進行分析將會是一大挑戰,例如: 應用社群網站的 API 存取每個人的社交資料進行分析,以利解決個人隱私、趨勢話題、…等問題,重點在於數學理論的應用。

相關資源

資料處理 Operational Data Store (1)

基本介紹

教學目標

初步了解營運資料儲存 (Operational Data Store,ODS) 的概念。

重點概念

企業有許多不同的應用系統,每個系統皆有不同的資料格式,可能是結構化或非結構化的資料,為了業務的需要就必須透過營運資料儲存 (Operational Data Store,ODS) 將應用系統中的相關資料轉換成適當的檔案格式,例如: 平面檔案 (Flat File) 以最小的空間儲存結構化資料,可分為固定長度或可變長度,也就是所謂 CSV 檔,接著載入至資料倉儲進行企業的分析應用與資料管理。

在大多數的企業中主要是由營運環境和資料倉儲環境建構應用於每天進行處理與決策的骨架,其中經常性的資料市集會從資料倉儲出取出以利進行分析。在不同的環境有不同資料結構的類型需求,其本上可以分成線上交易處理資料、整合資料和歷史資料,一般來說線上交易處理資料會經由 ETL 處理轉換成歷史資料和整合資料,其中整合資料主要是以系統記錄 (System of record) 或單一的事實版本 (Single version of truth) 為主進行建立基礎以利分析處理之應用。

然而當我們需要線上交易處理的整合這種不同類型的資料結構時,就會需要營運資料儲存 (Operational Data Store,ODS),企業對需要營運資料儲存主要是因為其應用操作系統無法有效進行整合和難處理,當企業需要整合資料卻無法修改已經存在的相關系統環境時就需要營運資料儲存。此外也能夠透過營運資料儲存將線上資料更新至資料倉儲中,此時營運資料儲存就必須具備高效能的線上交易處理環境。

至於營運資料儲存與資料倉儲皆是以主題導向的整合資料為主,但是營運資料儲存能夠獨立進行更新、刪除和增加的短暫當時的資料,而資料倉儲主要儲存不同時間的長期歷史的資料。因此營運資料儲存根據處理時間的不同主要可以分為三種類型,類型一以毫秒 (Milliseconds) 為時間單位進行資料同步,類型二以小時 (Hours) 為時間單位進行資料同步,類型三以天 (Days) 為時間單位進行資料同步,根據不同的需求選擇適合類型的營運資料儲存的系統環境,一般來說企業皆以類型三的營運資料儲存為主。此外不同來源資料可能會需要進行整合會有前後相依關係的問題,此時在營運資料儲存和資料倉儲之間就會有臨時區域 (The Staging Area) 等待資料完整後才會進行整合轉換。

比較項目 資料倉儲 營運資料儲存 應用操作系統
建立目的 決策支援 即時監控 業務操作
服務對象 企業管理 業務管理 業務處理
儲存週期 長期 短期 即時
處理頻率 非即時 非即時/即時 即時
主要功能 分析功能 分析功能/事務處理 事務處理
技術實作 OLAP OLAP/OLTP OLTP
功能結構 集中 相對集中 分散
資料類型 匯整資料/明細資料 明細資料 明細資料
資料大小

表一、DW、ODS 和 AP 比較表

最後銀行有許多核心系統,例如: Temenos T24 Core Banking、Misys FusionCapital Summit 等針對不同業務處理的核心系統,若要整合出應用分析的戰略報表就必須必過營運資料儲存將核心系統中的原始資料轉換為正規化後資料格式再導入至資料倉儲中,以避免資料倉儲成為垃圾場 (Garbage Dump) 影響分析決策之應用,也就是所謂 ETL 轉換而非 ELT 轉換之資料處理的差別。

相關資源