Data Mining

資料處理 Data Warehouse (2)

基本介紹

教學目標

初步了解資料倉儲 (Data Warehouse) 相關應用的基本概念。

重點概念

資料倉儲定義是指將企業中各類營運資料經過擷取轉換整合成各主題式分析型資料庫,其中資料倉儲特性有主題導向、整合性、時間變動性和非暫存性,根據上述特性而進行資料倉儲與營運資料庫的資料庫之設計、處理與更新,將會有所差別。

資料倉儲 營運資料庫
設計方式 分析目的 交易目的
處理方式 大量資料 單筆資料
更新方式 每日批次轉換 即時線上更新

資料倉儲協助資料分析的相關應用主要有三種,分別為報表管理、資料探勘和名單篩選,首先報表管理主要可以分為自行開發與套裝工具兩種,當發現主要管理報表的需求無法藉由套工具的設定滿足時,才會有自行開發的必要性,否則建議採用套裝工具,藉由設定滿足管理報表的需求,以利後續的維護與管理。報表種類主要可以分為靜態報表與動態報表,所謂靜態報表就是無法進行互動的報表檔案,而動態報表就是可以進行互動的報表查詢。接著報表查詢的互動主要有二種,分別為即興式查詢與線上多維度分析,主要是針對單一觀點之客戶資訊主檔進行關聯式查詢,主要分析內容有三大類,分別為客戶類、通路類和產品類,因此客戶資訊主檔必須先整合銀行核心系統、開放式平台系統和各通路往來訊息等客戶資訊匯整成單一觀點,以利了解客戶的全貌,接著再藉由即興式查詢和多維度線上分析支援客戶輪廓、交易模式、產品績效等即時分析或定期報告,例如: 客戶分析、交易分析、貸款分析、…等報表、查詢和分析之應用。

接著資料探勘主要會針對客戶類、產品類和通路類進行客戶輪廓分析、客戶群集分析、客戶預測分析、…等以客戶為主的資料分析之應用。此時分析的資料類型又分為結構化資料和非結構化資料,結構化資料藉由建立模型產生主資料進行分析,再搭配 Hadoop 大數據平台整合非結構化資料,進行更深入的資料探勘之應用,像是預測建模、相似度分析、回歸分析、決策樹、類神經網路、自動分群、購物籃分析、…等資料探勘技術,以利產生適合的名單,其中名單類型可以是客戶、產品或通路等經由資料探勘進行分析之後產生的資料結果。

再來名單篩選的方式主要有三種,分別為以預設條件篩選客戶名單、以自訂組合條件篩選客戶名單和配合專案條件篩選客戶名單,通常企業中會藉由名單的產生以利提升行銷活動帶來的效益。此時為了能夠有效針對不同的行銷活動提供適合的行銷名單,所以會導入行銷活動管理系統進行通路整合和協助產生行銷名單,並且配合行銷活動的管理流程,例如: 初始化、設計及建立->接觸策略->排程->追蹤回應->接觸客戶->產生名單->核准及執行,針對不同的行銷活動藉由挑選客戶資訊以利產生適合的行銷名單,將產品資訊以各種不同的通路傳遞訊息給適合的目標族群。

總結資料倉儲不僅能從營運、業務和行銷等不同角度切入協助資料分析之外,未來更應該發展即時性資料倉儲,以利客戶為基礎的資料探勘之相關分析應用,並且能在時效之內推薦客戶最適合的產品組合。

相關資源

2015Q1 工作心得 (1)

在新創公司工作了一年,一直在嘗試新技術與導入公司,今年初開始我總覺得少了些什麼? 非常想了解不同產業是如何針對 Domain Knowledge 進行大數據的分析流程之應用,跟我過往嘗試在公司導入的資料架構與流程到底有什麼更該注意的細節?

為此我在年前辭去新創公司的工作,在過年期間複習與大數據分析相關的專業書籍,總共五本書籍,分別為:

  1. Fundamentals of Database System
  2. The Art of SQL
  3. Hadoop The Definitive Guide
  4. Big Data: A Revolution That Will Transform How We Live, Work, and Think
  5. Data Science for Business

從最基本的關聯式資料庫管理系統 (RDBMS) 處理結構化的資料,主要透過 SQL 語法查詢資料進行分析,直到資料量大到無法透過最佳化 SQL 查詢適當時間內即時完成分析,以及非結構化的資料越來越多種類時,就會開始導入 Hadoop 生態架構以 MapReduce 處理方式進行大數據分析。

RDBMS MapReduce
大小 Gigabytes Petabytes
存取 互動和批次 批次
更新 每次寫入和讀取 一次寫入,每次讀取
交易 ACID
結構 Schema-on-write Schema-on-read
完整性
延展性 非線性 線性

最後數據會再透過統計的方法產生具有重要觀點的資訊報表,為企業帶來更高的價值,事實上整個流程就是資料探勘,其中最常見的處理流程即是 CRISP-DM ,其中不論資料量大與小,重點在於如何建構完整資料探歁的流程,以最即時的方式提供統計過之後的觀點報表,此時不同產業的企業是如何打造完整的資料探勘流程呢?期望我能在年後的工作中學習與了解。