Statistics

資料分析 Statistics (3)

教學目標

初步了解推論統計和預測統計的基本概念。

重點概念

首先推論統計主要透過從該母體抽取的隨機樣本進行分析得出關於母體的結論,同時我們還會關注這些推論的精確性和可靠性。推論統計主要從我們觀察到的資料一般化至沒有觀察到的母體。描述統計則主要描述我們的樣本資料,但是推論統計可以幫助我們得出有關整個資料總體的結論。因此描述統計被稱為探索性資料分析,而推論統計被稱為解釋性建模。

接著在開始分析之前,我們應該使用描述性的統計資料探索我們的資料。在熟悉資料之後,我們將可以使用推論統計或解釋性建模描述資料,以及使用預測統計或預測性建模預測未來的觀測值。

再來在解釋性建模中,目標主要是開發一個回答問題的模型,也就是 X 如何與 Y 相關?此時樣本量通常很小,並且包含很少的變數。重點主要在於模型的參數,若我們要評估模型,則可以使用 p 值和信賴區間。

最後在預測性建模中,目標主要是回答這個問題,如何我們知道 X,我們能夠預測 Y 嗎? 樣本量通常非常大,並且包括許多預測變數,也稱為輸入變數。重點在於觀察的預測,而不是模型的參數。此外為了評估一個預測模型,我們將會使用樣本資料進行驗證和預測。

總結推論統計與預測統計的差別,主要為使用推論統計或解釋性建模描述資料,使用預測統計或預測性建模預測未來的觀測值。此外若是建模公式為 Y=aX+b,則描述統計的重點在於 aX+b,而預測統計的重點在於 Y。

相關資源

資料分析 Statistics (2)

教學目標

初步了解描述統計的基本概念。

重點概念

首先若我們需要檢驗統計摘要資訊,主要會使用 PROC MEANS ,若要使用圖形化則會使用 PROC SGPLOT,但若兩種皆要則會使用 PROC UNIVARIATE。無論我們是否需要分析臨床試驗的結果、預測信用卡使用模式、追蹤瀕臨危險野生動物、模擬空氣污染模式或者製作一個人員樣本以利管理健康行為調查,此時我們的挑戰主要包括需要管理大量資料,並且找出理解相關資料的最佳方法。此時統計學是收集,解釋和呈現資料的科學,它主要提供了分析和評估資料重要性的方法,同時統計的資料將能夠轉換為資訊,以利做為決策的依據。

接著了解基本的統計概念,將有助協助我們更好的理解資料的性質,以及評估可以將哪些統計方法應用於資料中,像是產生描述性統計,包括數字摘要,直方圖、機率圖、盒形圖、…等,同時我們還需要透過推理統計計算平均值和信賴區間的標準誤差。以及我們將會進行假設檢驗的步驟,以利回答有關資料相關的統計問題,並且根據樣本資料得出關於母體的結論。

接著描述統計主要是檢查資料分佈的位置、展開和形狀,也被稱為探索性資料分析,主要是使用 PROC MEANS、PROC UNIVARIATE 和 PROC SGPLOT 進行描述統計。若要計算平均值的均值和信賴區間的標準誤差,則要使用 PROC MEANS。若要執行一個樣本統計假設檢驗,則要使用 PROC UNIVARIATE。若要產生圖形,像是直方圖、盒形圖、回歸圖和散佈圖,則要使用 PROC SGPLOT。描述統計主要使用數字和圖形技術進行組織、描述和加總資料。其主要使用了一系列的標準度量,像是百分比、平均值和可變性,以及簡單的圖形、圖表和表格。描述性統計資訊主要透過描述和加總其基本特微協助我更好的理解資料。

最後產生和理解資料摘要資訊,主要包括頻率、最小、最大、百分位數、四分位數、平均數、中位數、眾數,以及分散性或變異性的測量,主要包括範圍、四分位間距,變異數和標準差。至於摘要資訊的圖形主要包括直方圖,正常分佈機率圖和盒形圖,此時我們描述資料的目標主要有四項,分別為:

  1. 顯示不正常的資料值。
  2. 檢查資料的展開和形狀。
  3. 呈現中心趨勢的特性。
  4. 針對資料作出初步的結論。

總結透過描述統計我們將能夠了解資料是否沒有錯誤?資料有哪些獨特的功能?資料是否有聚集?顯示資料中的一些不尋常形狀?資料是否包含任何可能的異常值?並且當我們針對資料有基本的了解時,下一步我們將會使用推論統計進行更進階的分析。

相關資源

資料分析 Statistics (1)

教學目標

初步了解統計分析的基本概念。

重點概念

資料分析的基礎技能之一就是統計分析,至於如何檢驗資料和執行統計分析,主要可以區分為三種類型,分別為:

  1. 描述統計。
  2. 推論統計。
  3. 預測統計。

首先描述統計主要是檢驗資料分佈資訊,又稱為探索式資料分析。其主要是檢驗一個或多個變數群組的不同之處,以及檢驗變數之間的關係,同時比較不同執行統計任務的方法。當然我們針對描述式統計將會產生相關圖表,主要包括數量、摘要、直方圖、機率圖和盒形圖。

接著推論統計主要是計算中間值的標準差和信賴區間。以及我們將會進行假設檢定的步驟,回答有關資料的統計問題,並且根據樣本資料得出關於母體的結論。同時我們使用盒型圖來圖形化地的探索分類預測變數和連續回應變數之間的關係,以及分析母體之間的差異,並且驗證雙樣本 T 檢定和方差分析的假設,以利解釋輸出結果。此外我們將會產生和解釋圖表和統計表格,以確定平均數差異是否顯著,並且學會在組間進行配對比較,以利確認不同方式顯著的不同,以及透過雙向 ANOVA 模型,並且檢測變數之間的相互作用,並且儲存分析結果,以利執行後續的處理分析。

再來我們將會採用探索性資料分析和線性回歸分析連續變數。為了探索連續變數,我們將會先產生散佈圖以利進行相關分析,然後我們將會採用線性回歸以利理解或預測連續變數之間的關係。同時我們也將會執行簡單線性回歸和多元回歸,以及使用多種方法選擇回歸模型,以及學習解釋回歸輸出的結果以利協助選擇最好的模型。

最後預測統計主要會是分析一個或多個預測變數和分類回應變數之間關係的技術探索分類資料,並且透過單獨或組合的方式檢查變數的分佈,以利查找可能的關聯。此外我們也將會學習執行卡方檢驗,以利確定預測變數和分類回應變數是否具有顯著關聯性。然後我們會將邏輯回歸模型擬合至我們的資料中,以利協助我們解釋或預測結果。同時我們將使用歷史資料來建構預測模型,並且使用該模型根據預測變數的現有值預測回應變數的預測值,同時透過新的資料進行評分,以利評估模型的成效。

總結統計分析主要有三種類型依序為描述統計、推論統計和預測統計,簡單來說,我們會先用圖表進行描述分析,再用線性回歸進行推論分析,最後用預測模型進行預測分析的商業應用。

相關資源