Leo Yeh's Blog

SAS Viya (145)

教學目標

初步了解透過 SAS Viya 分析平台針對快速約會資料集進行視覺化分析和建立機器學習模型的基本概念。

重點概念

首先您是否想過一見鍾情真的存在嗎?如果存在的話,男女雙方具有哪些特質會互吸引和成功交往呢?這是個非常有趣的問題,且不論是任何人皆想找到最適合的伴侶,而在 2006 年哥倫比亞大學商學院教授 Ray Fisman 和 Sheena Iyengar 所撰寫的論文「Gender Differences in Mate Selection: Evidence From a Speed Dating Experiment」主要就針對這個問題產生每次四分鐘的快速約會進行實驗,其中參與者會被問到是否想再次與異性進行約會,並且根據外表魅力、誠意、聰明、幽默、企圖心和共同興趣這這六個特質進行評分。在該論文中提到對於女性比較注重男性的聰明,而對於男性而言比較注重女性的外表魅力,而且男性不重視女性的聰明或企圖心超越自己,但是十多年之後的今天透過最新的視覺化分析和機器學習模型進行資料分析之後的結果真的也是如此嗎?

接著我們為了要了解在 2006 年所提供的快速約會資料集將能夠免費申請 SAS Viya 分析平台上「SAS Visual Data Mining and Machine Learning」的 14 天試用版,將能夠輕鬆針對資料進行視覺化分析和建立機器學習模型,至於快速約會的資料集主要由哥倫比亞大學所收集,並且由 Kaggle 資料科學競賽平台所託管。因此無論是業務分析師、資料科學家或資訊人員皆能在 SAS Visual Data Mining and Machine Learning 的免費試用期間內以 SAS Visual Analytics 進行視覺化分析和以 SAS Model Studio 建立機器學習模型來探索快速約會的資料。

再來我們透過 SAS Visual Analytics 視覺化分析將會發現配對成功的比例主要有 16.47%,而成功交往的比例僅有 1.48%,至於男性參加者中最熱門的職業背景為金融和顧問,而女性參加者中最熱門的職業背景為學術和研究,並且根據內建的決策樹模型中,影響配對成功的前三個重要變數為幽默、外表魅力和共同興趣,以及根據內建的梯度提升模型我們將會發現對於女性而言外表魅力比較重要,而對於男性而言,幽默比較重要。所以相同的資料集當我們透過 SAS Visual Analytics 進行視覺化分析將能夠得出更多有趣的分析觀點。

最後我們透過 SAS Model Studio 建立機器學習模型將能夠快速自動建立更複雜,並且有更高準確度的機器學習模型,並且透過 PD、ICE、LIME、Kernel SHAP 的方法進行模型解釋,當然還能夠以開放源始碼 Python 或 R 所建立最新的機器學習模型進行比較,選出最適合的冠軍模型。此外我們回到一開始所提到的問題一見鍾情真的存在嗎?理應存在,而男女雙方具有幽默、外表魅力和共同興趣三大特質將有很大的機率互相吸引和成功交往。

總結透過 SAS Visual Data Mining and Machine Learning 將能夠很輕易的針對 Kaggle 資料科學競賽平台上有趣情境應用的資料集進行入門學習,過程中無須撰寫任何程式碼,僅需要透過拖拉點選的操作方式就能夠進行視覺化分析和建立機器學習模型。

相關資源

⬅️ Go back