Predictive Modeling

資料分析 Predictive Modeling (4)

教學目標

初步了解透過邏輯回歸進行預測建模基本概念。

重點概念

首先許多不同類型的統計分析,標準做法是採用聯合抽樣方法對資料進行具有代表性的抽樣,當目標事件很常發生時,則聯合抽樣將非常適合。但是當是目標事件很少發生時,則聯合抽樣非常不適合,因為一個具有代表性的樣本不可能有足夠的目標事件來建立一個好的預測模型。反之,當事件與非事件的比例非常少時,採用單獨的抽樣來過度抽樣少數的目標事件時,將會建立不成比例且過度的的代表事件樣本。在單獨的抽樣中,主要是基於目標結果分別抽樣來建立主要事件或次要非事件樣本。此外單獨抽樣的結果被合併在一個建立預測模型的樣本中,使用單獨的抽樣是有效的,但若對於目標事件進行過度抽樣將會導致後續需要修正的偏差。

接著為了避免樂觀的偏見,需要進行誠實的評估,當我們在歷史資料上建立一個預測模型,若是使用過度擬合的模型進行評估將會是不好的方式。其中樂觀主義原則主要指出當您評估預測模型應用於模型相同資料上的準確性時,與評估其它資料模型時相比將會獲得更好的評估結果,但是隨著基礎模型變得更加靈活,當資料量不足,則過度擬合成為一個更大的問題。為了避免樂觀偏見的評估,並且建立一個能很好地推廣的預測模型,所以我們需要評估模型在不適合原始模型的新資料上的成效,此時這種做法就被稱為誠實評估。

再來誠實評估模型如何推廣至新的資料最簡單的方法就是分割資料,我們會將資料分成兩個資料集,一個是訓練資料集和一個是驗證資料集,其中我們將會嘗試將模型擬合至訓練資料集,並且使用驗證資料來評估和比較模型,在 1990 年 Picard 和 Berk 則提出從四分之一至二分之一的資料被用於驗證資料集,並且因為我們正在評估模型的情況不同於您用來擬合模型的情況,所以我們就能夠避免了樂觀偏見並獲得有效的評估成效。至於在 1996 年 Ripley 則提出測試資料集主要用於最終的評估結果,因此有些人透過三種方式將資料分成訓練、驗證和測試資料集,其中主要透過訓練資料集擬合模型,驗證資料集評估和比較模型,測試資料集進行最終評估,請注意在某些應用中,測試資料集會從不同的時間或地點進行取得測試,像是針對目標行銷我們可能會將三分之二的資料產生訓練資料集,將三分之一的資料產生驗證資料集,將收集新的資料產生測試資料集進行測試。

最後使用哪一種抽樣方法建立訓練和驗證資料集,其中簡單的隨機抽樣並不是最好的使用方法,透過簡單的隨機抽樣,訓練和驗證資料集可能會有不同的事件百分比,此時為了確保訓練和驗證資料集有相同比例的事件,則我們可以使用分層隨機抽樣,在分層隨機抽樣中,將觀察結果分成不重疊的群組或以目標值進行分層,然後從每個群組中選擇一個樣本為訓練資料集和驗證資料集。

相關資源

資料分析 Predictive Modeling (3)

教學目標

初步了解透過邏輯回歸進行預測建模基本概念。

重點概念

首先當我們建立預測模型將可能會遇到資料挑戰,一般來說,應用於預測建模的資料通常是觀察資料,觀察資料通常是非常巨大,並且由數百萬個案例所組成,我們可能有數百個輸入變數,許多是多餘的或不相關的,觀察資料通常包括錯誤和缺失值,因此建立預測模型的準備資料通常會非常困難。例如:需要獲取與分析相關的部分資料,此時相關輸入通常需要從原始的業務領域建立,許多統計方法不能很好的適應大量資料集,因為大多數方法皆是針對從設計實驗中產生的小資料集進行開發。

接著當我們的資料包括大量的輸入變數時,我們通常必須處理混合的輸入變數,其中輸入變數可能是間隔、順序、等級和計數等數量。由於回歸分析需要輸入變數為數字,所以需要將標籤輸入變數轉換為數值虛擬變數。此外建立預測模型的另一個複雜因素則是高維度,所謂維度是指輸入變數的數量,同時也是輸入自由度。一般來說,預測建模者會考慮大量的輸入變數,大量的輸入變數會給予高維度,但是有大量的輸入變數是否很好嗎?事實上,大量的輸入變數可能會有問題,因為當我們包括更多的變數時,則數值會更分散,這將會使得難以確認資料之間的關係,同時高維度所帶來的限制主要是在 1984 年由 Breiman 則提出資料集的複雜性將會隨著維度的增加而快速增加,並且資料集的複雜性越高則會對運算效能影響非常大,並且將會限制探索和建模變數之間關係的能力。根據建立預測模型的目標

再來建立預測模型的另一個常見的資料挑戰就是少數的目標事件,也就是與非事件相比,有興趣的事件相對較少,像是若事件資料少於資料集的 1% ,則就有可能會被識別為少數的目標事件。至於為什麼少數的目標事件將會是資料挑戰,主要是因為建立預測模型通常是從一個非常大的資料集開始。當資料集越大則為建立預測模型的準備資料將會非常複雜且容易出錯,所以所需要的時間越多,因此分析整個資料集通常非常沒有效率,所以一個預測模型通常會建立在資料樣本上,其中代表性的樣本通常用於許多統計分析。然而當目標事件很少時,代表性樣本通常不可能會有足夠的目標事件來建立一個好的預測模型。在 1997 年 Harrell 則提出少數的事件將有助於建立可靠的預測模型,因此較小的樣本資料集可能具有巨量資料集的預測潛力,這代表著將可以使用原始資料集的樣本來獲得平均相似的預測結果,但是此樣本通常為非代表的樣本。

最後建立預測模型除了資料挑戰之外,還會面臨分析的挑戰,通常建立預測模型是一個多變量的問題,每個重要的變數皆可能以複雜的方式影響目標,並且除了線性之外,也會有非線性的關係。此外建立預測模型通常也會涉及模型選擇的挑戰,在開發許多不同類型或複雜的模型之後,預測建模者必須選擇具有高準度的預測模型。請注意我們經常會過度使用資料,也就是使用太複雜的模型,將會對於新的資料預測準度不高,因此不適合使用於新的資料。但若是選擇過於簡單的模型,也將會對於新的資料預測準度不高,因此也不適合使用於新的資料,因此要如何有效選擇適當的模型將會是建立預測模型所面臨分析的挑戰。

總結當我們建立預測模型時將可能會遇到資料挑戰和分析挑戰,此時我們將會透過許多方法或技巧有效準備資料和選擇適當模型,以利解決資料挑戰和分析挑戰。

相關資源

資料分析 Predictive Modeling (2)

教學目標

初步了解透過邏輯回歸進行預測建模基本概念。

重點概念

首先建立預測模型的第一步主要是已知結果變數值的歷史資料上建立一個模型,也就是監督式分類。第二步則主要是在已知目標分類的案例子集合上建構預測模型,然後將預測模型應用於目標分類的未知案例中,又稱為一般化。

接著針對監督式分類我們的任務主要是準備輸入變數,主要應用於建立預測模型的資料,並且透過處理缺失值、處理分類、篩選變數、… 等技巧準備資料。當資料準備就緒之後,我們就能夠選擇最具預測性的輸入開始調整模型。一般來說,我們通常需要調整幾個候選的模型來找到最適合新資料的模型,並且透過將每個模型應用於新資料,同時產生適合的統計資料評估模型,然後比較模型的成效,選擇最適合新資料的模型。

再來建立預測模型有許多業務的應用,常見的應用主要要有四個,分別為:

  1. 目標行銷
  2. 流失預測
  3. 信用評分
  4. 詐欺偵測

其中與業務和行銷相關的業務應用主要有目標行銷和流失預測,目標行銷主要是使用客戶資料庫來改善銷售促銷和產品忠誠度。在目標行銷中,案例是客戶,輸入則是之前購買的歷史和人口統計等屬性,並且目標通常是針對過去促銷的回應資料識別出目標客戶群,以利業務針對客戶群提高銷售的回應率。流失預測主要是使用歷史的客戶資料庫識別出客戶流失得風險,也就是預測誰會轉換品牌或取消服務,以利行銷人員針對可能有高失去風險的客戶提升其忠誠度。

最後與風險和安全相關的業務應用主要有信用評分和詐欺偵測,信用評分主要是決決定是否向申請人提供信貸,通常案件為過去的申請人,大部份的輸入變數皆來自於信用申請或信用報告,至於相關的目標,則是是否還清債務或違約,此外信用評分的目的重點在於降低新的信貸申請人的違約和欠款風險。詐欺偵測主要是保險索賠或交易,像是信用卡購買或電話,輸入主要是交易的細節和情況,至於相關的目標,則是是否為詐欺,詐欺檢測目的主要是預測新的交或索賠中的詐欺或濫用情況,以利對其進行調查或阻止。

總結我們透過監督式分類和一般化步驟建立預測模型,以利應用於目標行銷、流失預測、信用評分和詐欺偵測業務上,當然過程中我們將會面臨許多資料與分析的挑戰,將在下一篇進行介紹。

相關資源

資料分析 Predictive Modeling (1)

教學目標

初步了解透過邏輯回歸進行預測建模基本概念。

重點概念

首先當我們使用邏輯回歸進行預測建模時,我們必須了解預測建構的主要目標,以利達成業務目標。在傳統統的統計分析中,主要目的是推論,簡單來說就是使用對於觀察樣本的分析以利得出關於抽樣的整個資料整體的結論,其中推論分析常用的工具是信賴區間、假設檢定和 p 值。但是預測建模的主要目標是一般化,一般化代表能夠預測新資料的結果,此外也可稱將一般化稱為評分,重點在於預測建模時,我們的目標是根據相關的指標評估最大化預測能力。

接著在大多數的商業環境中預測建模主要重點為預測實量,次要重點才是理解預測變數和回應變數之間的關係。若是模型設計好,則不論預測變數和回應變數之間的關係有多複雜,理應也能夠滿足業務需求。此外神經網路的預測建模方法基本上很難進行解釋,也沒有使用正式的推論方法進行評估,但卻非常有效,所以我們在建立預測模型時會將重點著重在於討論調適模型,以利模型能夠根據經驗最大化預測能力滿足組織的業務需求。

再來建立預測模型的資料主要是由一組案例所組成,被稱為觀察或範例。每個案例分有一個輸入變數的向量,我們稱為預測變數、解釋變數、輸入或特徵。此外每個案例也會有一個目標變數,也就是所謂的結果或回應變數,其目標主要是要預測結果,同時預測模型將會找到規則或公式連結至目標。

最後建立預測模型的第一步主要是已知結果變數值的歷史資料上建立一個模型,當結果變數是已知並且是離散的情況下,我們將這活動稱為監督式分類,目標是正確地將案例分類至群組或類別中,其中目標是一個類別標籤的變數,同時監督主要代表類別標籤對於每種情況階是已知的。此外我們會根據發生的特定事件來考慮一個類別,而另一個類別則是補充。

總結當只有兩種可能的結果存在,也就是二元目標時, 預測模型將會為每個案例分配一個分數,當我們有一個二元目標時,每個得分皆會測量該案例屬於某個特定類別的機率。至於為什麼我們需要從監督分類開始進行,因為我們已經知道每個案例的目標事件結果,所以我們將會將會透過建立預測模型進行目標變數值未知結果的預測。

相關資源