資料科學 Data Scientist Associate (1)

教學目標

初步了解如何準備數據科學與大數據分析相關的國際證照。

重點概念

最近看了一本 2015 年出版的數據科學與大數據分析書籍,其內容主要有十二個章節,分別為:

  1. 大數據分析介紹。
  2. 資料分析生命週期。
  3. 使用 R 進行基本資料分析。
  4. 進階分析理論與方法 - 分群。
  5. 進階分析理論與方法 - 關聯規則。
  6. 進階分析理論與方法 - 回歸。
  7. 進階分析理論與方法 - 分類。
  8. 進階分析理論與方法 - 時間序列分析。
  9. 進階分析理論與方法 - 文字分析。
  10. 進階分析技術與工具 - 大數據分析。
  11. 進階分析技術與工具 - 資料庫分析。
  12. 結尾與整合應用。

首先大數據是具有大規模、分散式、多樣性和時效性的資料,這些特點決定了必須採用新的技術架構和方法才能有效的探勘新資源的商業價值。一般來說,在企業中會面臨許多業務問題可以透過資料驅動的分析能力進行解決,請參考下表。

業務問題 實務案例
優化業務操作 銷售、報價、利潤、…
識別業務風險 客戶流失、詐欺、違約、…
預測業務機會 增值銷售、追加銷售、找出最佳潛在客戶、…
遵守法律或法規要求 反洗錢、公平信貸、巴塞爾協議、…

接著資料分析生命週期主要定義了從專案開始至結束完整流程的最佳實務,以往會參考 Scientific Method、CRISP-DM、DELTA、AIE、MAD、… 等方法,然而在本書中則主要提出六個階段的資料分析生命週期,分別為:

  1. 發現問題。
  2. 資料準備。
  3. 規劃模型。
  4. 建立模型。
  5. 溝通結果。
  6. 實際應用。

其中發現問題同時適當的設定問題將會是專案成功的關鍵,所謂設定主要為敘述導解決問題的過程,最好是記下問題的述敘,然後與關鍵利原關係者進行溝通,此外理解問題的領域非常重要,資料科學家最好熟悉於運用各種業務和概念問題的理論、方法、技術和工具,當我們在專案早期明確定義問題將有助於團隊選擇後續階段使用的分析方法。

再來模型設計與建構階段常用的工具,分別為:

  1. SAS Enterprise Miner:主要允許使用者在大量企業資料上執行預測性和述性模型,同時也能夠與其它大型資料儲存進行連線,因此適合企業級運算和分析。
  2. R:主要提供完整設計和建模能力,透過 ODBC 與資料庫進行連線互動,同時透過套件針對大數據進行統計測試和分析。
  3. Python:主要是一種程式語言,提供機器學習和分析套件,像是scikit-learn、numby、pandas、…等套件。

最後隨著資料量不斷增加的情況下,有更多的商業工具可以用於創建清晰有力的可視化圖表,透過可視化圖表將能夠允許我們以更具吸引力的方式探索資料和評估模型,常見的可視化商業工具,主要有:

  1. Tableau。
  2. Microsoft Power BI。
  3. Qlik View。
  4. SAS Visual Analytics。
  5. IBM Cognos Analytics。

總結這本書十二章節將有助於考取 Data Science Associate (EMCDSA) 資料科學國際證照,考試主題對應章節內容如下表所示:

考試主題 章節內容
大數據分析和資料科學角色 大數據分析介紹
資料分析生命週期 資料分析生命週期
初始資料分析 使用 R 進行基本資料分析
進階大數據分析-理論和方法 進階分析理論與方法 - 分群、關聯規則、回歸和分類
進階大數據分析-技術和工具 進階分析技術與工具 - 大數據分析和資料庫分析
溝通和進行分析專案與資料視覺化技術 結尾與整合應用

相關資源