資料分析

資料分析 Quantitative Analysis (1)

教學目標

初步了解量化分析的基本概念和學習心得。

重點概念

首先在過去主要是以研究財報和公司客戶進行分析,但現今則主要是利用演算法和複雜的統計模型來找出最有可能的獲利交易與模式。此時量化分析則主要是在商業或金融上採用數學統計模型,來衡量與分析市場行為的技術。

接著量化分析師則是量化數字進行分析,試圖以數學模型反映現實,也就是透過量化分析評估績效、評價金融商品、預測股價走勢、…等,但是雖然量化分析的數學模型能夠幫助我們更客觀的衡量風險和收益,卻很難發明出一個能夠完全精準的預測模型。

再來若我們想要學習量化分析,則能夠透過 DataCamp 線上課程網站有系統的學習量化分析,主要以 R 語言實作為主,當完成之後將會提供量化分析師職涯課程的證書,這將會花費好幾個月的時間進行學習,並且若數學底子沒有很好,則經常會需要花費更多時間了解數學公式,總共有十五門課程,分別為:

  1. Introduction to R for Finance
  2. Intermediate R for Finance
  3. Manipulating Time Series Data in R with xts & zoo
  4. Importing and Managing Financial Data in R
  5. Introduction to Time Series Analysis
  6. ARIMA Modeling with R
  7. Manipulating Time Series Data in R: Case Studies
  8. Forecasting Using R
  9. Visualizing Time Series Data in R
  10. Introduction to Portfolio Analysis in R
  11. Intermediate Portfolio Analysis in R
  12. Bond Valuation and Analysis in R
  13. Credit Risk Modeling in R
  14. Quantitative Risk Management in R
  15. Financial Trading in R

最後在透過 DataCamp 學習量化分析過程中若是建議可以參考「金融科技實戰:R語言與量化投資」中文電腦書籍,以利了解資產收益率及風險、投資組合理論、資本資產定價模型、三因子模型等金融理論基礎,認識時間序列的基本性質、預測、GARCH模型、配對交易策略、投資相關的K線圖、動量交易策略、RSI相對強弱指標、均線系統策略、… 等重點概念。

總結若我們對於量化分析有興趣,則建議可以先透過 DataCamp 網站以 R 語言學習量化分析,透過撰寫程式,根據需求找出最合適的量化分析數學模型,將是一件非常有挑戰的事情。

相關資源

資料分析 Statistics (3)

教學目標

初步了解推論統計和預測統計的基本概念。

重點概念

首先推論統計主要透過從該母體抽取的隨機樣本進行分析得出關於母體的結論,同時我們還會關注這些推論的精確性和可靠性。推論統計主要從我們觀察到的資料一般化至沒有觀察到的母體。描述統計則主要描述我們的樣本資料,但是推論統計可以幫助我們得出有關整個資料總體的結論。因此描述統計被稱為探索性資料分析,而推論統計被稱為解釋性建模。

接著在開始分析之前,我們應該使用描述性的統計資料探索我們的資料。在熟悉資料之後,我們將可以使用推論統計或解釋性建模描述資料,以及使用預測統計或預測性建模預測未來的觀測值。

再來在解釋性建模中,目標主要是開發一個回答問題的模型,也就是 X 如何與 Y 相關?此時樣本量通常很小,並且包含很少的變數。重點主要在於模型的參數,若我們要評估模型,則可以使用 p 值和信賴區間。

最後在預測性建模中,目標主要是回答這個問題,如何我們知道 X,我們能夠預測 Y 嗎? 樣本量通常非常大,並且包括許多預測變數,也稱為輸入變數。重點在於觀察的預測,而不是模型的參數。此外為了評估一個預測模型,我們將會使用樣本資料進行驗證和預測。

總結推論統計與預測統計的差別,主要為使用推論統計或解釋性建模描述資料,使用預測統計或預測性建模預測未來的觀測值。此外若是建模公式為 Y=aX+b,則描述統計的重點在於 aX+b,而預測統計的重點在於 Y。

相關資源

資料分析 Statistics (2)

教學目標

初步了解描述統計的基本概念。

重點概念

首先若我們需要檢驗統計摘要資訊,主要會使用 PROC MEANS ,若要使用圖形化則會使用 PROC SGPLOT,但若兩種皆要則會使用 PROC UNIVARIATE。無論我們是否需要分析臨床試驗的結果、預測信用卡使用模式、追蹤瀕臨危險野生動物、模擬空氣污染模式或者製作一個人員樣本以利管理健康行為調查,此時我們的挑戰主要包括需要管理大量資料,並且找出理解相關資料的最佳方法。此時統計學是收集,解釋和呈現資料的科學,它主要提供了分析和評估資料重要性的方法,同時統計的資料將能夠轉換為資訊,以利做為決策的依據。

接著了解基本的統計概念,將有助協助我們更好的理解資料的性質,以及評估可以將哪些統計方法應用於資料中,像是產生描述性統計,包括數字摘要,直方圖、機率圖、盒形圖、…等,同時我們還需要透過推理統計計算平均值和信賴區間的標準誤差。以及我們將會進行假設檢驗的步驟,以利回答有關資料相關的統計問題,並且根據樣本資料得出關於母體的結論。

接著描述統計主要是檢查資料分佈的位置、展開和形狀,也被稱為探索性資料分析,主要是使用 PROC MEANS、PROC UNIVARIATE 和 PROC SGPLOT 進行描述統計。若要計算平均值的均值和信賴區間的標準誤差,則要使用 PROC MEANS。若要執行一個樣本統計假設檢驗,則要使用 PROC UNIVARIATE。若要產生圖形,像是直方圖、盒形圖、回歸圖和散佈圖,則要使用 PROC SGPLOT。描述統計主要使用數字和圖形技術進行組織、描述和加總資料。其主要使用了一系列的標準度量,像是百分比、平均值和可變性,以及簡單的圖形、圖表和表格。描述性統計資訊主要透過描述和加總其基本特微協助我更好的理解資料。

最後產生和理解資料摘要資訊,主要包括頻率、最小、最大、百分位數、四分位數、平均數、中位數、眾數,以及分散性或變異性的測量,主要包括範圍、四分位間距,變異數和標準差。至於摘要資訊的圖形主要包括直方圖,正常分佈機率圖和盒形圖,此時我們描述資料的目標主要有四項,分別為:

  1. 顯示不正常的資料值。
  2. 檢查資料的展開和形狀。
  3. 呈現中心趨勢的特性。
  4. 針對資料作出初步的結論。

總結透過描述統計我們將能夠了解資料是否沒有錯誤?資料有哪些獨特的功能?資料是否有聚集?顯示資料中的一些不尋常形狀?資料是否包含任何可能的異常值?並且當我們針對資料有基本的了解時,下一步我們將會使用推論統計進行更進階的分析。

相關資源

資料分析 Statistics (1)

教學目標

初步了解統計分析的基本概念。

重點概念

資料分析的基礎技能之一就是統計分析,至於如何檢驗資料和執行統計分析,主要可以區分為三種類型,分別為:

  1. 描述統計。
  2. 推論統計。
  3. 預測統計。

首先描述統計主要是檢驗資料分佈資訊,又稱為探索式資料分析。其主要是檢驗一個或多個變數群組的不同之處,以及檢驗變數之間的關係,同時比較不同執行統計任務的方法。當然我們針對描述式統計將會產生相關圖表,主要包括數量、摘要、直方圖、機率圖和盒形圖。

接著推論統計主要是計算中間值的標準差和信賴區間。以及我們將會進行假設檢定的步驟,回答有關資料的統計問題,並且根據樣本資料得出關於母體的結論。同時我們使用盒型圖來圖形化地的探索分類預測變數和連續回應變數之間的關係,以及分析母體之間的差異,並且驗證雙樣本 T 檢定和方差分析的假設,以利解釋輸出結果。此外我們將會產生和解釋圖表和統計表格,以確定平均數差異是否顯著,並且學會在組間進行配對比較,以利確認不同方式顯著的不同,以及透過雙向 ANOVA 模型,並且檢測變數之間的相互作用,並且儲存分析結果,以利執行後續的處理分析。

再來我們將會採用探索性資料分析和線性回歸分析連續變數。為了探索連續變數,我們將會先產生散佈圖以利進行相關分析,然後我們將會採用線性回歸以利理解或預測連續變數之間的關係。同時我們也將會執行簡單線性回歸和多元回歸,以及使用多種方法選擇回歸模型,以及學習解釋回歸輸出的結果以利協助選擇最好的模型。

最後預測統計主要會是分析一個或多個預測變數和分類回應變數之間關係的技術探索分類資料,並且透過單獨或組合的方式檢查變數的分佈,以利查找可能的關聯。此外我們也將會學習執行卡方檢驗,以利確定預測變數和分類回應變數是否具有顯著關聯性。然後我們會將邏輯回歸模型擬合至我們的資料中,以利協助我們解釋或預測結果。同時我們將使用歷史資料來建構預測模型,並且使用該模型根據預測變數的現有值預測回應變數的預測值,同時透過新的資料進行評分,以利評估模型的成效。

總結統計分析主要有三種類型依序為描述統計、推論統計和預測統計,簡單來說,我們會先用圖表進行描述分析,再用線性回歸進行推論分析,最後用預測模型進行預測分析的商業應用。

相關資源

資料分析 Methodology (1)

教學目標

初步了解針對不同的商業問題,需要使用哪種方法進行分析。

重點概念

首先解決問題的框架雖然能夠有系統的解決商業問題,但是我們且體還是不知道要用哪種方法進行解決,此時我們需要決定該用哪一種分析方法解決商業問題。

接著我們第一步就是要確定商業問題是否需要預測一個數值,若我們對於業務和資料有深入的了解將能夠回答此問題,此時我們可以將問題先分為預測分析和非預測分析。一般來說,很多的問題透過非預測分析就已經足夠,非預測分析主要可以分為四種類型,分別為:

  1. 描述:主要提供資料樣本簡單概述。
  2. 聚合:主要計算跟群組或維度資料。
  3. 區隔:主要將資料進行分組的過程。
  4. 地理:主要基於地理位置推導結論。

再來若我們要進行預測分析,則第一步就是要調查已經存在的資訊是否足夠解決問題,此時若不足夠則代表資料不足,但是若足夠則代表資料豐富。當資料不足時,我們就會需要設置一個實驗協助我們得到想要的資料,此時若給特定商業情境的實驗通常是指 A/B 測試。當資料足夠時,我們就會需要了解預測結果是數值或非數值的結果,若是數值結果那就會採用回歸模型進行預測分析,反之,若是非數值結果那就會採用分類模型進行預測分析。

最後若我們已經具資料已經足夠時,要如何決定適當的分析模型,並且進行評估呢?例如:一家銀行突然有一批新用戶申請貸款,此時我們想預測每個貸款申請人是否可能拖欠款,以利確認哪些貸款申請人值得信任,此時就會採用二元分類模型進行預測與成效評估。

總結當我們進行資料分析時,建議根據商業問題具體的情境,選擇最適當的分析方法。

相關資源