Leo Yeh's Blog

SAS 資料科學 (3)

教學目標

初步了解 SAS 解決方案與大數據相關的學習主題。

重點概念

SAS 解決方案中有許多與大數據相關的應用,其中個人認為最關鍵的重點除了資料品質之外就是資料價值,在過去從 2008 年 Hadoop 平台誕生至今將近快滿十年的時間,對於 Hadoop 平台而言已經成熟可應用於企業中解決問題,然而為何 Hadoop 平台如此的重要,最主要的原因就是有能力快速儲存和處理龐大任何種類的資料,因此 Hadoop 平台的出現帶來所謂大數據應用的可能性,此時 SAS 平台整合 Hadoop 平台讓我們有能力從大數據中獲取資料價值,同時還能夠應用於資料探索和視覺化、資料管理、預測分析、資料科學分析、資料評分、…等解決方案。尤其是資料探索和視覺化 SAS Visual Analytics 解決方案將能夠簡化存取資料管理和減少資料準備所浪費的時間之外,更能夠透過視覺化資料探索協助我們快速獲取資料關聯性,同時藉由 In-memory 分析和機器學習的技術快速引導出有利於企業進行決策的觀點。

大數據專業知識

此時我們是否能夠有個學習方向呢?不妨可以先以 SAS Big Data Programming and Loading Exam 考試內容進行有系統的學習,其中主要包括四大部份,分別為 SAS 和 Hadoop、SAS DS2 程式設計、Hadoop 程式設計和透過 IMSTAT 程序進行資料操作,試想我們今天若要進行資料分析首先會需要準備資料,接著透過資料分析的方式驗證與分析資料,最後透過資料視覺化呈現的方式從中探索嘗試找出潛在的趨勢觀點。

SAS 和 Hadoop

首先 SAS 和 Hadoop 主要是了解 SAS 平台如何存取 Hadoop 平台的資源,我們若能了解其重點功能與實務應用,將有助於從 Hadoop 平台中獲取資料價值,此外其它學習重點則分別為:

  1. 描述 Hadoop 互動操作基本需求。
  2. 使用 Hadoop 程序和敘述從 SAS 工作階段與 Hadoop 進行互動。
  3. 查詢和管理儲存在 Hadoop 平台中的 Hive 資料表。
  4. 透過 SAS/ACCESS LIBNAME 敘述操作 Hadoop 檔案。

SAS DS2 程式設計

接著 SAS DS2 程式設計主要是了解 SAS 平台如何透過 DS2 程式語言更有效率的處理大數據,我們若能了解其重點功能與實務應用,將更有效率的處理大數據,此外其它學習重點則分別為:

  1. 撰寫 DS2 程式。
  2. 使用 DS2 讀取資料。
  3. 了解變數、陣列和 SQL 資料類型如何運作。
  4. 了解表達式和函數的使用。
  5. 了解方法、套件和執行緒。

Hadoop 程式設計

再來 SAS DS2 程式設計主要是了解如何管理 Hadoop 平台,這部份與 SAS 平台較無直接關係,主要重點應該在於管理指令、Hive 程式和 Pig 程式,我們若能了解其重點功能與實務應用,將有助於管理 Hadoop 平台,此外其它學習重點則分別為:

  1. 描述 Hadoop 架構。
  2. 透過命令提示工具操作和載入資料檔案。
  3. 撰寫 Hive 程式建立、加入和查詢資料表。
  4. 撰寫 Pig 程式執行 ETL 任務和分析大量資料集。

透過 IMSTAT 程序進行資料操作

再來透過 IMSTAT 程序進行資料操作主要是了解 SAS 平台如何透過 IMSTAT 程序更有效率的處理大數據,我們若能了解其重點功能與實務應用,將更有效率的處理大數據,此外其它學習重點則分別為:

  1. 執行 IMSTAT 程序。
  2. 執行繪圖程序 (PROC IMSTAT)。
  3. 操作 In-memory 資料。
  4. 使用高效能程序 (SAS LASR 分析伺服器)。

總結先以 SAS Big Data Programming and Loading Exam 考試內容進行有系統的學習,其中主要包括四大部份,分別為 SAS 和 Hadoop、SAS DS2 程式設計、Hadoop 程式設計和透過 IMSTAT 程序進行資料操作,其中有 30% 的內容皆是以 SAS 和 Hadoop 為主,30% 的內容皆是以 SAS DS2 程式設計為主,15% 的內容皆是以 Hadoop 程式設計,以及 25% 的內容皆是以視覺化透過 IMSTAT 程序進行資料操作為主,至於要如何學習就先看官方文件和教學影片吧。

相關資源

⬅️ Go back