Leo Yeh's Blog

SAS 資料管理 (9)

教學目標

初步了解整合 SAS 平台和 Hadoop 平台的基本概念。

重點概念

首先 SAS 平台中有許多介面和工具皆支援 Hadoop 平台,並且整合應用,以利進行大數據管理,主要有三大類,分別為:

  1. SAS Foundation Interfaces.
  2. SAS In-Memory Interfaces.
  3. SAS Products.

接著 SAS Foundation Interfaces 主要有四個介面,請參考下表:

介面 目的 產品
FILENAME statement 主要是透過 DATA STEP 讀取和寫入 HDFS 資料檔案。 Base SAS
PROC HADOOP 主要是在 SAS 和 Hadoop 之間移動和複製檔案,並且透過 HDFS 指令管理檔案和資料夾。 Base SAS
SQL pass-through 主要是透過 HiveQL 查詢指令在 Hadoop 平台中進行資料處理,並且將查詢結果返回 SAS 平台 SAS/ACCESS Interface to Hadoop
LIBNMAE statement for Hadoop 主要是透過 SAS 程式存取 Hive 資料表為 SAS 資料集,並且會將 SAS 程式轉換為 HiveQL 查詢語言。 SAS/ACCESS Interface to Hadoop

再來 SAS In-Memory Interfaces 主要有四個介面,請參考下表:

介面 目的 產品
High-Performance Analytics Procedures 主要是透過 SAS 程式在分散式的資料節點中執行執行複雜分析運算。 SAS Hight-Performance Analytics Solutions
SAS Visual Analytics and SAS Visual Statistics 主要是透過網站介面產生資料視覺化與分析報表。 SAS Visual Analytics and SAS Visual Statistics
PROC IMSTAT 主要是透過 SAS 程式在記憶體中執行複雜分析運算。 SAS In-Memory Statistics
DS2 主要是透過 SAS 程式在分散式的資料節點中執行執行複雜平行運算。 SAS In-Database Code Accelerators

最後 SAS Products 主要有二個工具或產品,分別為:

  1. SAS Data Integration Studio.
  2. SAS Data Loader for Hadoop.

其中 SAS Data Integration Studio 主要是整合 Hadoop 轉換流程至工作流程中,而 SAS Data Load for Hadoop 主要是提供單一任務導向介面,以利整合 SAS 平台和 Hadoop 平台。

相關資源

⬅️ Go back