SAS 基本介紹 (17)

教學目標

初步了解 SAS 平台中存取 Hadoop 資源的方式。

重點概念

Hadoop 主要是大數據的儲存與處理技術,主要有三個主要的資源,分別為 HDFS、MapReduce (YARN) 和 Hive,然而在 SAS 平台中主要有六種產品以不同的方式存取 Hadoop 資源,分別為 Base SAS、SAS Scalable Performance Data Server、SAS LASR Aanlytic Server、SAS/ACCESS Interface to Hadoop、SAS In-Database 和 SAS Data Loader for Hadoop。

Base SAS

SAS 平台可以透過 SAS 程式直接存取 HDFS,主要讀取和寫入純文字檔案,我們將會需要使用 FIENAME 和 LIBNAME 敘述設定,接著透過 DATA STEP、PROC SQL 和 PROC SQOOP 進行直接存取。

SAS/ACCESS Interface to Hadoop

SAS 平台可以透過 SAS/ACCESS Interface to Hadoop 產品以 Hive 直接讀取和寫入 HDFS 中的資料,相當於提供 SQL Pass-Through 功能,此外我們的還可以傳送 HiveQL、MapReduce 和 Pig 程式在 Hadoop 中執行,我們將會需要使用 LIBNAME 敘述設定,接著透過 DATA STEP 進行間接存取。

SAS Scalable Performance Data Server

SAS 平台可以透過 SAS Scalable Performance Data Server 提供資料儲存系統優化交付資料的速度,因此 SAS 平台主要讀取和寫入儲存在 SAS Scalable Performance Data Server 的檔案,我們將會需要使用 LIBNAME 敘述設定,接著透過 DATA STEP 進行存取。

SAS LASR Analytic Server

SAS 平台可以透過 SAS LASR Analytic Server 提供多使用者平行安全存取載入至記憶體資料的分析平台,因此 SAS 主要讀取和寫入儲存在 SAS LASR Analytic Server 中的 SASHDAT 檔案格式直接存取 HDFS 檔案,所謂 LASR 是指 In-memory 分析引擎主要被用於載入來自任何可被 SAS 存取的資料來源。所謂 SASHDAT 格式主要是提供快速和最有效率的機制載入大量的資料至 LASR LASR Analytic Server 中。

SAS In-Database

SAS 平台可以透過 SAS In-Database 產品協助我們以 Hadoop 中 的 SAS Embedded Process (EP) 關鍵元件執行 MapReduce 工作,同時能夠加快在 SAS 解決方案中的執行程式和資料品質功能,以及支援平行資料載入至遠端的分散式 LASR Analytic Server 中。

SAS Data Loader for Hadoop

SAS 平台可以透過 SAS Data Loader for Hadoop 產品協助我們以使用者介面存取、清理和管理在 HDFS 中的資料,主要有三個階段分別為獲取 & 探索、轉換 & 整合以及清理 & 交付,也就是準備大數據的自主服務,其中大數據就是指儲存在 Hadoop 中的資料。

總結在 SAS 平台中我們將能夠搭配六種產品以不同的方式存取 Hadoop 中不同的資源,包括 HDFS、MapReduce (YARN) 和 Hive,請參考下表。

HDFS MapReduce (YARN) Hive
Base SAS
SAS Scalable Performance Data Server
SAS LASR Analytic Server
SAS/ACCESS Interface to Hadoop
SAS In-Database
SAS Data Loader for Hadoop

相關資源