資料科學 Microsoft Professional Program (1)

教學目標

初步了解如何透過 edX 線上課程學習資料科學,並且取得微軟全球首推資料科學 (Data Science) 學位認證。

重點整理

最近剛完成微軟全球首推資料科學 (Data Science) 學位認證,在此分享一下學習心得,Microsoft 在 2015 年之前就在 edX 線上課程網站提供「Data Science and Machine Learning Essentials 」課程,當時我對於資料科學非常感興趣所以就上完此門課程拿到證書,接著在 2016 年我想再進修資料科學相關的統計知識,所以就上哥倫比亞大學「Statistical Thinking for Data Science and Analytics」課程,然而在 2017 年的某一天突然看到微軟全球首推資料科學 (Data Science) 學位認證,並且我也已經完成一門統計基礎課程,於是我就將此學位認證設定為我今年的證照目標,開始規劃資料科學學位認證相關課程。

微軟全球首推資料科學 (Data Science) 學位認證

首先在日常工作中我最常使用的就是 Excel 工具,所以我就先上「Analyzing and Visualizing Data with Excel」課程,其中除了常用公式和樞紐分析表之外,還有介紹如何直接資料庫連線建立資料模型,接著產生圖表。接著每個人談到資料科學都會提到 R 語言或 Python 語言,而我碩士論文針對 Facebook 網站朋友關係進行分群時,主要就是用 R 語言進行分群演算法的比較,所以就選擇 R 語言線上課程複習與精進,主要有兩們課程,分別為「Introduction to R for Data Science」課程和「Programming with R for Data Science」課程,其中透過 DataCamp 的線上互動學習系統,能夠讓初學者不需安裝軟體快速上手,當然學了一段時間之後還是要動手安裝 R 語言進行實戰,其中包括許多資料科學的基本應用,尤其是統計方面的基本分析與圖表呈現。

再來學會 Excel 工具快速分析商業需求和 R 語言統計分析與進階分析之後,我本身工作職責是資訊專員所以比較熟悉的是 SQL 語言,且維護系統主要會使用 MS SQL 相關工具,因此就花了點時間複習「Querying with Transact-SQL」課程,主要介紹 SQL 語法基本觀念與應用。

最後當我上完 Excel 工具快速分析商業需求、R 語言統計分析與進階分析和 SQL 查詢資料整合應用,資料科學專案「Microsoft Professional Capstone : Data Science」課程就已經開始了,每三個月舉行一次競賽題目每次不同,這次題目為學生貸款償還率預測分析。此時還剩下與 Azure 相關的課程還未開始,所以就花了一週的時間學習如何使用 Azure 雲端服務進行資料科學的應用,邊學邊解題,最後我透過 Azure Machine Learning 雲端服務搭配最熟悉的 SQL 語言完成學生貸款償還率預測分析的資料科學專案課程,拿到九十幾分的成績,且雖然分析報告寫得很基本,但還是得到很不錯的評價。當完成資料科學專案課程之後,就一口氣完成「Microsoft Professional Orientation : Data Science」、「Data Science Essentials」、「Principles of Machine Learning」和「Applied Machine Learning」等四門 Azure 資料科學相關課程,其實第一門課程只要填問卷就能拿證明了。

總結花了將近半年的時間才完成「微軟全球首推資料科學 (Data Science) 學位認證」,重點在於透過線上課程的操作練習與資料科學專案的實際預測分析應用,大致上對於資料科學會更進一步的認識與了解,但總覺得主要還是在學習 Microsoft 資料科學的解決方案為主,真心推薦 Azure Machine Learning 雲端服務透過簡單拖拉搭配 SQL 語法就能快速進行預測分析的應用了。

相關資源