Leo Yeh's Blog

SAS 資料科學 (4)

教學目標

初步了解 SAS 五大資料管理最佳實務支援進階分析和深入洞察。

重點概念

首先我們都知道乾淨的水對於生存非常重要,可是若是水源被汙染時,除非我們過濾的很乾淨,否則將會造成許多負面的影嚮,因為為了要有更好的結果,所以我們需要可以用氟化物豐富水分,過濾掉雜質,並在適當的水壓和溫度下運送。同樣的無汙染的資料將會是成功企業最核心的關鍵,特別是以資料分析為主的企業。但是根據不同需求從資料倉儲或資料湖中準備針對分析的資料時,此時將會面臨所多未經過濾的資料,導致難以進行管理和分析。

接著大部份資料科學家會花模型開發 50% 至 80% 的時間準備資料,這大大減少了深入理解的時間。所以對於準備資料分析的資料科學家和商業分析師,SAS 所提供的資料管理技術就像是資料過濾器,提供了統一的平台,讓我們存取、清理、轉換和結構化資料,以利進行任何分析,同時若是日常維護工作做得好,則可以降低資料準備的困難,以利提高生產力,透過資料帶來更多價值,更進一步做出最佳的決策和敏捷性。

再來 SAS 提出五大資料管理最佳實務支援進階分析和深入洞察,分別為:

  1. 簡化:簡化存取傳統和現代的資料。
  2. 強化:透過進階分析技術加強資料學家的深入理解。
  3. 清理:清理資料且建構品質至現有的流程中。
  4. 成形:使用彈性的操作技術準備資料。
  5. 分享:跨資料管理和分析領域分享中繼資料。

簡單來說,原始資料建議透過「簡化」、「強化」、「清理」、「成形」和「分享」這五個階段的最佳實務,以利轉換為已經準備就續的分析資料。資料科學家和商業分析師經常會提前想知道將會進行分析或視覺化的資料,但是他們很難知道哪些變數是最適合建模應用中具有最高預測價值的變數。此時識別和存取正確資料將會是關鍵的第一步,在建立有效的模型之前,我們需要完整且可靠的資料,以利進行分析,這將會是五大資料管理最佳實務能夠協助的部份。

最後 SAS 針對進階分析技術主要讓我們透過資料進行最佳的決策,因為傳統 ETL 和資料整合技術沒有複雜的統計分析能力,但是 SAS 平台卻有提供複雜的統計分析能力至 ETL 流程中,像是頻率分析、摘要統計和關聯變數,所謂頻率分析不僅是簡單的計數,以利資料科學家和商業分析師協助識別出異常值、遺漏值,平均值、中位數和預測分析、…等頻率分析之應用。所謂摘要統計主要透過所提供的測量值描述資料、以利資料科學家和商業分析師協助了解資料的分佈和標準差,因為資料不一定是常態分佈。所謂關聯分析主要是在分析模型建構的過程中使用相關性,以利資料科學家和商業分析師透過了解資料中變數潛在相關性,是互相影響還是獨立變數,確認哪些變數和變數組合將有助於預測能力的提升。

總結若我們遵循 SAS 提出五大資料管理最佳實務將可以讓企業組織從進階分析中獲取完整的價值,同時透過領先業務的方法存取所有類型的原始資料,並且允許我們準備任何解決不同問題分析目的的資料,同時將準備資料的知識整合至分析模型中,以利企業進行自動化的決策流程。

相關資源

⬅️ Go back