資料分析 Statistics (3)

教學目標

初步了解推論統計和預測統計的基本概念。

重點概念

首先推論統計主要透過從該母體抽取的隨機樣本進行分析得出關於母體的結論,同時我們還會關注這些推論的精確性和可靠性。推論統計主要從我們觀察到的資料一般化至沒有觀察到的母體。描述統計則主要描述我們的樣本資料,但是推論統計可以幫助我們得出有關整個資料總體的結論。因此描述統計被稱為探索性資料分析,而推論統計被稱為解釋性建模。

接著在開始分析之前,我們應該使用描述性的統計資料探索我們的資料。在熟悉資料之後,我們將可以使用推論統計或解釋性建模描述資料,以及使用預測統計或預測性建模預測未來的觀測值。

再來在解釋性建模中,目標主要是開發一個回答問題的模型,也就是 X 如何與 Y 相關?此時樣本量通常很小,並且包含很少的變數。重點主要在於模型的參數,若我們要評估模型,則可以使用 p 值和信賴區間。

最後在預測性建模中,目標主要是回答這個問題,如何我們知道 X,我們能夠預測 Y 嗎? 樣本量通常非常大,並且包括許多預測變數,也稱為輸入變數。重點在於觀察的預測,而不是模型的參數。此外為了評估一個預測模型,我們將會使用樣本資料進行驗證和預測。

總結推論統計與預測統計的差別,主要為使用推論統計或解釋性建模描述資料,使用預測統計或預測性建模預測未來的觀測值。此外若是建模公式為 Y=aX+b,則描述統計的重點在於 aX+b,而預測統計的重點在於 Y。

相關資源