Leo Yeh's Blog

SAS 資料管理 (1)

教學目標

初步了解 SAS 平台中使用 Hadoop 平台進行資料管理的基本概念。

重點概念

首先若我們要在 SAS 平台中使用 Hadoop 平台進行資料管理,則我們需要了解三件事,分別為:

  1. 如何存取 HDFS 中的檔案資料。
  2. 如何透過 HIVE 存取資料。
  3. 如何透過 In-Memory 分散式處理資料。

接著我們需要透過 SAS 工具存取 Hadoop 中的檔案資料,則會透過三個主要的敘述式操作,分別為:

  1. Hadoop FILENAME:上傳本機檔案至 Hadoop 中,並且從 Hadoop 中讀取資料。
  2. PROC HADOOP:主要傳送 HDFS 指令、MapReduce 程式和 Pig 程式,以利要存取資料。
  3. PROC SQOOP:主要傳送 SQOOP 指令,以利進行 Hadoop 與資料庫之間的搬移。

再來我們還能夠透過 SAS/ACCESS to Hadoop 的工具存取資料,但是請注意,若我們要使用 SAS/ACCESS to Hadoop 工具,則需要在 Hadoop 叢集中設定相關的 JAR 程式檔和 XML 設定檔,至於對應路徑的環境變數,請參考下表。

Hadoop 相關檔案 環境變數
JAR 程式檔 SAS_HADOOP_JAR_PATH
XML 設定檔 SAS_HADOOP_CONFIG_PATH

其中 JAR 程式檔主要是讓 SAS 客戶端機器能夠連線至 Hadoop 客戶端應用程式中,在許多案例中經常會因為遺失 JAR 檔或 JAR 檔版本在客戶端與伺服器不對應的情況導致錯誤發生。

最後 SAS 基礎工具則主要會根據 Hadoop 中 XML 設定檔執行 PROC HADOOP 或 Hadoop FILENAME 敘述式執行 JAR 程式檔連線至 Hadoop 叢集中的 NameNode 服務和 Job Tracker 服務存取 HDFS 中的檔案資料,請注意 Hadoop 相關 JAR 程式檔必須安裝至 SAS 客戶端機器中,並且 Hadoop 環境元件必須包括 NameNode、DataNode、TaskTracker 和 JobTracker 處理程序。

相關資源

⬅️ Go back