2015Q1 工作心得 (1)

在新創公司工作了一年,一直在嘗試新技術與導入公司,今年初開始我總覺得少了些什麼? 非常想了解不同產業是如何針對 Domain Knowledge 進行大數據的分析流程之應用,跟我過往嘗試在公司導入的資料架構與流程到底有什麼更該注意的細節?

為此我在年前辭去新創公司的工作,在過年期間複習與大數據分析相關的專業書籍,總共五本書籍,分別為:

  1. Fundamentals of Database System
  2. The Art of SQL
  3. Hadoop The Definitive Guide
  4. Big Data: A Revolution That Will Transform How We Live, Work, and Think
  5. Data Science for Business

從最基本的關聯式資料庫管理系統 (RDBMS) 處理結構化的資料,主要透過 SQL 語法查詢資料進行分析,直到資料量大到無法透過最佳化 SQL 查詢適當時間內即時完成分析,以及非結構化的資料越來越多種類時,就會開始導入 Hadoop 生態架構以 MapReduce 處理方式進行大數據分析。

RDBMS MapReduce
大小 Gigabytes Petabytes
存取 互動和批次 批次
更新 每次寫入和讀取 一次寫入,每次讀取
交易 ACID
結構 Schema-on-write Schema-on-read
完整性
延展性 非線性 線性

最後數據會再透過統計的方法產生具有重要觀點的資訊報表,為企業帶來更高的價值,事實上整個流程就是資料探勘,其中最常見的處理流程即是 CRISP-DM ,其中不論資料量大與小,重點在於如何建構完整資料探歁的流程,以最即時的方式提供統計過之後的觀點報表,此時不同產業的企業是如何打造完整的資料探勘流程呢?期望我能在年後的工作中學習與了解。