資料分析 Problem Solving (1)

教學目標

初步了解跨產業資料探勘標準流程如何應用於解決商業問題。

重點概念

首先跨產業資料探勘標準流程 (Cross Industry Standard Process for Data Mining,CRISP-DM) 主要為一種資料探勘過程的模型,它主要描述資料探勘專家用來解決問題的常用方法,同時它也是一個協助我們解決問題的框架,因為它對於各式各樣的商業問題皆有非常有效。其中 CRISP-DM 解決問題框架主要有六個步驟,分別為:

  1. 業務理解
  2. 資料理解
  3. 資料準備
  4. 分析建模
  5. 模型評估
  6. 模型發佈

接著解決商業問題第一步就是業務理解,我們能夠透過以下三個問題協助理解商業問題,分別為:

  1. 需要做出哪些決策?
  2. 需要獲得哪些資訊,以利做出適當的決策?
  3. 什麼類型的分析能夠獲取決策所需的資訊?

一般來說,我們建立關於商業問題的思維模型,將有助於應用於分析的潛在資訊之結構化非常有幫助。

再來當任何商業闆題被解決之前,知道所需和可用的資料是什麼非常重要,此步驟也就是資料理解,我們能夠透過以下三個問題協助理解商業問題的資料,分別為:

  1. 需要什麼資料?
  2. 有什麼資料可用?
  3. 資料的重要特征是什麼?

一般來說,資料理解主要是從資料收集活動開始,然後透過活動熟悉資料、檢驗資料品質問題、對於資料進行初步理解,或者探索資料中比較有趣的資料子集,更進一步形成對於潛在資訊的假設。

此外理解商業問題和理解所需或可用資料將有助於為了分析準備資料,通常我們在進行分析之前,若是不進行準備,則資料很少能夠直接使用。其中資料準備的常用步驟主要有五項,分別為:

  1. 收集
  2. 清理
  3. 格式化
  4. 混合
  5. 資料抽樣

一般來說,資料準備主要需要從組織內多個系統來源收集資料,並且針對使用的資料集進行資料不正確或遺失的處理,以及我們可能需要更改顯示方式,或著將資料進行混合或組合,以利產生新的變數,至於資料抽樣則是使用更容易管理的記錄數,以利進行分析。

最後當我們完成資料準備之後,下一步就是進行資料分析,以及針對問題進行建模,以利透過許多不同的方法進行分析,此時就會需要進行分析建模、模型評估和模型發佈三大步驟,以利確定用什麼方法解決問題,有助於解決問題的重要因素或變數以及構建解決問題的模型。

總結我們可以透過 CRISP-DM 解決問題的框架一步步透過理解資料來解決商業的問題。

相關資源