Leo Yeh's Blog

資料分析 Banking & Big Data (1)

基本介紹

教學目標

初步了解銀行業大數據分析的概念。

重點概念

大數據的定義最基本為 3V ,分別為數量 (Volume)、速度 (Velocity) 和種類 (Variety),其中數量沒有絕對標準,只要當全部資料取代樣本資料,且其處理速度能在接受的時間內完成分析時就能稱為大數據分析,但是資料來源從何而來,在企業中過去最關注的是企業資源規劃 (Enterprise Resource Planning,ERP)、客戶關係管理 (Customer Relationship Management,CRM) 和資料倉儲 (Data Warehouse,DW),其資料皆是有意義和目的的收集,所以基本上為結構化資料。然而隨著互聯網的規模成長,人機互動所產生的資料已經成為另一個重要的資料來源,基本上為非結構化資料。此外 3V 的定義主要關注於資料本身的特征進行描述,但是大數據的關鍵點則在於第四個 V,也就是價值 (Value),當數量龐大、即時傳輸和格式多樣化的全部資料透過分析的應用創造出商業價值,更進一步推動商業模式的變革。

資料應用和業務創新的生命週期主要有五個階段:

  1. 業務定義需求
  2. IT 部門獲取和整合資料
  3. 數據科學家構建完善演算法與模型
  4. IT 發佈新的洞察報告
  5. 業務應用和衡量洞察的實際成效

其中數據科學家在大數據的應用中扮演關鍵的角色,透過新的演算法與技術方式,協助 IT 不斷挖掘出新的關聯性洞察報告,更能滿足業務的需求,然而大數據的具體運作主要有四個方面:

  1. 資料質量的兼容性
  2. 資料應用的關聯性
  3. 資料分析的成本
  4. 資料價值的轉化

資料質量的兼容性 (Compatibility) 也就是大數據透過「量」提升資料分析對「質」的寬容度,在大數據應用中資料的清理和驗證非常困難,所以透過分散式技術的演算法使得資料的「量」可以彌補「質」的不足,進行提升資料分析對於資料品質的兼容能力。資料應用的關聯性 (Connectedness) 也就是大數據使得技術和演算法從「靜態」轉為「動態」,在大數據應用中透過雲端計算、串流處理和記憶體分析等技術的支援下,透過持續增量的資料來優化分析結果,此時關聯性分析就會相當重要。資料分析的成本 (Cost) 也就是大數據降低了資料分析的成本門檻,在大數據應用中資料處理成本不斷下降,因此可以將有限的資料處理資源投入至可能產生「機會」的專案中應用,帶來新的商業價值。資料價值的轉化 (Capitalization) 也就是大數據實現從資料到價值的高度轉換,在大數據應用中銀行業相較於其它行業其資料強度高居之首,銀行業每創收 100 萬美元,平均會產生 820 GB 的資料,其次是傳統媒體平均會產生 760 GB 的資料,再者是醫療產業會產生 650 GB 的資料,因此如何以低成本的方式大量嘗試大數據中蘊藏的機會,更進一步產生商業價值。

銀行業在大數據能力方面為領軍者,主要有六大主要的業務:

  1. 零售銀行
  2. 公司銀行
  3. 資本市場
  4. 交易銀行
  5. 資產管理
  6. 財富管理

其中每個業務皆能夠藉由大數據應用更深入了解額戶,並且提出更具針對性的價值主張,同時提升風險管理的能力,例如: 透過大數據了解客戶制定有針對性的行動方案、以大數據為基礎提供豐富的商業即時分析資訊以利進行決策、將大數據技術應用到信貸險控制領域、…等相關應用。

然而大數據分析應用主要有四個層次:

  1. 資料收集與儲存
  2. 資訊整合
  3. 知識發現
  4. 智慧洞察

資料從各個不同的通道以不同類型的方式載入,其中包括結構化資料、半結構化資料和非結構化資料,此時資料會以即時或批次的方式進行擷取、處理和載入,接著儲存為有效的基礎資料以利後續的分析處理,處理包括串流計算、分散計算、記憶體計算、…等方式。接著將資料藉由整合轉換為資訊,再來透過人工智慧和資料探勘進行分解和提練,從中找出對目標對象有價值的資訊觀點轉化為知識,其中最熱門的技術則是機器學習,主要會從資訊反饋中獲取新的知識,重新組織既有的知識結構,持續進行改善。最後藉由可視化工具從智識中發現智慧,並且協助決策者和分析師從中挖掘出不同資料之間的關係,也就是可視化的洞察應用。此時為了實現大數據的應用就必須在現行銀行 IT 架構,包括核心系統、資料倉儲、商業智慧工具、… 等系統與大數據平台 (Hadoop) 進行整合應用。

最後銀行業雖然擁有大量資料,但根據 BCG 多年專案經驗發現實際利用率僅有 34%,其中的問題主要在獲得客戶的允許和信用,同意企業在不透露個人資訊的前提下對其資訊進行整合、分析和應用,以及理解業務端需求,並將相關需求轉為具體的問題,引導技術部門和分析部門提供基礎設施的支援和資料分析的工作,簡單來說瓶頸在於個人隱私和溝通協調這兩大關鍵的問題。

相關資源

⬅️ Go back