資料分析 Statistics (2)

教學目標

初步了解描述統計的基本概念。

重點概念

首先若我們需要檢驗統計摘要資訊,主要會使用 PROC MEANS ,若要使用圖形化則會使用 PROC SGPLOT,但若兩種皆要則會使用 PROC UNIVARIATE。無論我們是否需要分析臨床試驗的結果、預測信用卡使用模式、追蹤瀕臨危險野生動物、模擬空氣污染模式或者製作一個人員樣本以利管理健康行為調查,此時我們的挑戰主要包括需要管理大量資料,並且找出理解相關資料的最佳方法。此時統計學是收集,解釋和呈現資料的科學,它主要提供了分析和評估資料重要性的方法,同時統計的資料將能夠轉換為資訊,以利做為決策的依據。

接著了解基本的統計概念,將有助協助我們更好的理解資料的性質,以及評估可以將哪些統計方法應用於資料中,像是產生描述性統計,包括數字摘要,直方圖、機率圖、盒形圖、…等,同時我們還需要透過推理統計計算平均值和信賴區間的標準誤差。以及我們將會進行假設檢驗的步驟,以利回答有關資料相關的統計問題,並且根據樣本資料得出關於母體的結論。

接著描述統計主要是檢查資料分佈的位置、展開和形狀,也被稱為探索性資料分析,主要是使用 PROC MEANS、PROC UNIVARIATE 和 PROC SGPLOT 進行描述統計。若要計算平均值的均值和信賴區間的標準誤差,則要使用 PROC MEANS。若要執行一個樣本統計假設檢驗,則要使用 PROC UNIVARIATE。若要產生圖形,像是直方圖、盒形圖、回歸圖和散佈圖,則要使用 PROC SGPLOT。描述統計主要使用數字和圖形技術進行組織、描述和加總資料。其主要使用了一系列的標準度量,像是百分比、平均值和可變性,以及簡單的圖形、圖表和表格。描述性統計資訊主要透過描述和加總其基本特微協助我更好的理解資料。

最後產生和理解資料摘要資訊,主要包括頻率、最小、最大、百分位數、四分位數、平均數、中位數、眾數,以及分散性或變異性的測量,主要包括範圍、四分位間距,變異數和標準差。至於摘要資訊的圖形主要包括直方圖,正常分佈機率圖和盒形圖,此時我們描述資料的目標主要有四項,分別為:

  1. 顯示不正常的資料值。
  2. 檢查資料的展開和形狀。
  3. 呈現中心趨勢的特性。
  4. 針對資料作出初步的結論。

總結透過描述統計我們將能夠了解資料是否沒有錯誤?資料有哪些獨特的功能?資料是否有聚集?顯示資料中的一些不尋常形狀?資料是否包含任何可能的異常值?並且當我們針對資料有基本的了解時,下一步我們將會使用推論統計進行更進階的分析。

相關資源