Leo Yeh's Blog

資料分析 Predictive Modeling (1)

教學目標

初步了解透過邏輯回歸進行預測建模基本概念。

重點概念

首先當我們使用邏輯回歸進行預測建模時,我們必須了解預測建構的主要目標,以利達成業務目標。在傳統統的統計分析中,主要目的是推論,簡單來說就是使用對於觀察樣本的分析以利得出關於抽樣的整個資料整體的結論,其中推論分析常用的工具是信賴區間、假設檢定和 p 值。但是預測建模的主要目標是一般化,一般化代表能夠預測新資料的結果,此外也可稱將一般化稱為評分,重點在於預測建模時,我們的目標是根據相關的指標評估最大化預測能力。

接著在大多數的商業環境中預測建模主要重點為預測實量,次要重點才是理解預測變數和回應變數之間的關係。若是模型設計好,則不論預測變數和回應變數之間的關係有多複雜,理應也能夠滿足業務需求。此外神經網路的預測建模方法基本上很難進行解釋,也沒有使用正式的推論方法進行評估,但卻非常有效,所以我們在建立預測模型時會將重點著重在於討論調適模型,以利模型能夠根據經驗最大化預測能力滿足組織的業務需求。

再來建立預測模型的資料主要是由一組案例所組成,被稱為觀察或範例。每個案例分有一個輸入變數的向量,我們稱為預測變數、解釋變數、輸入或特徵。此外每個案例也會有一個目標變數,也就是所謂的結果或回應變數,其目標主要是要預測結果,同時預測模型將會找到規則或公式連結至目標。

最後建立預測模型的第一步主要是已知結果變數值的歷史資料上建立一個模型,當結果變數是已知並且是離散的情況下,我們將這活動稱為監督式分類,目標是正確地將案例分類至群組或類別中,其中目標是一個類別標籤的變數,同時監督主要代表類別標籤對於每種情況階是已知的。此外我們會根據發生的特定事件來考慮一個類別,而另一個類別則是補充。

總結當只有兩種可能的結果存在,也就是二元目標時, 預測模型將會為每個案例分配一個分數,當我們有一個二元目標時,每個得分皆會測量該案例屬於某個特定類別的機率。至於為什麼我們需要從監督分類開始進行,因為我們已經知道每個案例的目標事件結果,所以我們將會將會透過建立預測模型進行目標變數值未知結果的預測。

相關資源

⬅️ Go back