Leo Yeh's Blog

SAS 資料科學 (2)

教學目標

初步了解 SAS 解決方案與大數據相關的學習主題。

重點概念

SAS 解決方案中有許多與大數據相關的應用,其中個人認為最關鍵的重點在資料品質,正確的資料會是進行最佳決策的第一步,龐大的資料很難協助我們解決問題,了解問題,或進行更快更好的決策,為了達到競爭的優勢,維持利潤和滿足客戶,我們必須要有能力知道資料要告訴我們什麼事情。很不幸的雖然我們擁有資料管理的技術與工具,但是大量的資料通常分散在各部門、團隊和地點中,以不同的格式儲存至不同的系統中。此時我們將會需要花費大量的時間找尋和清理資料,而非浪費時間在分析、溝通和回應,即使資料清理完畢,但是我們卻還是無法確保資料的品質,此時 SAS 解決方案就能夠透過資料管理的方式有效的解決資料品質的問題。

資料管理

但是要如何進行資料管理呢?首先我們可以從六個面向定義資料管理,分別為:

資料存取

所謂資料存取代表我們有能力在任何儲存位置中查詢和檢索資訊,同時有些技術可以使用最簡單有效的方式完成,以利我們能夠花費更多時間使用資料,而不僅僅是找到資料。

資料整合

所謂資料整合代表我們有能力組合不同類型的資料,通常會在擷取、轉換和載入的 ETL 作業中完成,其中資料虛擬化是資料整合其中之一的應用,將會比傳統 ETL 批次處理程式提供更多敏捷性的應用,像是我們可以產生資料的動態檢視示表,其中可進行個人資料的處理,重點在於我們不需要移動和透過中介資料市集儲存,就能直接進行分析應用。

資料準備

所謂資料準備代表我們有能力讓使用者透過最少的學習就能夠自行存取他們所需要的資料,以利降低資訊人員的負擔提高資料的應用價值。

資料品質

所謂資料品質代表我們有能力確保資料準確和可用於其預期目的的做法,從資料的存取,接著資料的整合,再來資料的準備,最後資料的報表呈現,皆必須確保資料的品質。

資料治理

所謂資料治理代表我們有能力透過統一持續的規範和政策管理資料,以利確保我們組織中的資料戰略和業務戰略保持一致性,同時也有助於遵循法規的規範。

主數據管理

所謂主數據管理代表我們統一和管理組織內所有領域常見和必要的資料,主要是利用資料整合和資料品質的功能,為主要的資料建立一致性的檢視表,以利進行整體性的進階分析。

因此我們從六大面向了解資料管理的重點功能,若能真正導入企業為端點至端點的解決方案,將有助於企業在最需要資料時取得正確資料、建立可被信任的最佳資料決策,以及建立資料導向的企業文化。

大數據專業知識

此時我們是否能夠有個學習方向呢?不妨可以先以 SAS Big Data Preparation, Statistics, and Visual Exploration Exam 考試內容進行有系統的學習,其中主要包括三大部份,分別為資料管理、 統計分析和視覺化資料探索,試想我們今天若要進行資料分析首先會需要準備資料,接著透過資料分析的方式驗證與分析資料,最後透過資料視覺化呈現的方式從中探索嘗試找出潛在的趨勢觀點。

資料管理

首先資料管理對於 SAS 解決方案主要為 DataFlux Data Management Studio 產品,我們若能了解其重點功能與實務應用,其中 SAS Quality Knowledge Base (QKB) 就是非常關鍵的應用功能將有助於資料管理,此外其它學習重點則分別為:

  1. 了解 Data Management Studio 操作介面與應用。
  2. 建立和設定能夠瀏覽資料探索和解釋結果。
  3. 從探勘的結果中定義和建立資料集合。
  4. 建立和瀏覽資料檔案。
  5. 設計資料標準綱要。
  6. 建立資料作業。
  7. 套用標準化定義和綱要。
  8. 套用解析定義。
  9. 比較和對比 Identification Analysis 和 Right Fielding Nodes 的差異。
  10. 套用 Gender Analysis Node 決定 Gender。
  11. 建立實體的解決任務。
  12. 定義和建立商業規則。
  13. 描述組織結構和 QKB 基本概念。
  14. 說明何時使用 QKB 不同元件。
  15. 定義被使用在不同定義類型的處理步驟和元件。

統計分析

接著統計分析對於 SAS 解決方案主要為 SAS/STAT 產品,我們若能了解其重點功能與實務應用,其中變異數分析和迴歸分析就是非常關鍵的應用功能將有助於統計分析,此外其它學習重點則分別為:

  1. 驗證變異數分析的假設。
  2. 使用 GLM 和 TTEST 程序分析母體平均之間的差異。
  3. 進行變異數分析事後檢測以利評估成效。
  4. 檢測和分析因素之間的交互作用。
  5. 使用 REG 和 GLM 程序建立多元線性迴歸模型。
  6. 分析 REG、PLM 和 GLM 程序輸出結果,以利評估線性迴歸模型的選擇。
  7. 使用 REG 或 GLMSELECT 程序執行模型的選擇。
  8. 透過診斷和殘差分析確認給定之迴歸模型的有效性。
  9. 使用 LOGISTIC 程序進行邏輯迴歸。
  10. 透過輸入選項優化模型成效。
  11. 解釋 LOGISTIC 程序輸出的結果。

視覺化資料探索

最後視覺化資料探索對於 SAS 解決方案主要為 SAS Visual Analytics 產品,我們若能了解其重點功能與實務應用,其中視覺化資料探索就是非常關鍵的應用功能將有助於統計分析,此外其它學習重點則分別為:

  1. 檢驗、修改和建立資料項目。
  2. 選擇和使用資料來源。
  3. 建立、修改和解釋自動化視覺化圖表。
  4. 建立、修改和解釋自動化視覺化圖形和表格。
  5. 增強視覺化分析的應用。
  6. 透過視覺化的互動進行資料探索。

總結先以 SAS Big Data Preparation, Statistics, and Visual Exploration Exam 考試內容進行有系統的學習,其中有 50% 的內容皆是以資料管理為主,30% 的內容皆是以統計分析為主,以及 20% 的內容是以視覺化資料探索為主,至於要如何學習就先看官方文件和教學影片吧。

相關資源

⬅️ Go back