Leo Yeh's Blog

SAS 資料管理 (2)

教學目標

初步了解 SAS 平台中使用 Hadoop 平台進行資料管理的基本概念。

重點概念

首先在企業中如何在 SAS 平台中使用 Hadoop 進行資料管理與分析,其情境應用主要有三個步驟,分別為:

  1. 移動非結構文字檔案至 Hadoop 檔案系統中。
  2. 執行 MapReduce 程式讀取或處理文字檔案執行多種類型的分析。
  3. 讀取文字分析的摘要結果傳回至 SAS 平台中,以利更進一步分析和產生報表。

接著我們主要透過 PROC HADOOP 和 HDFS COPYFROMLOCAL 敘述式移動非結構文字檔案至 Hadoop 檔案系統中。其中 HDFS 敘述式主要能夠讓我們執行 HDFS 指令在 SAS 平台和 Hadoop 平台中移動檔案,以及在 HDFS 系統中建立資料夾、刪除檔案和重新命名檔案。

範例程式碼

1
2
3
4
PROC HADOOP …;
HDFS COPYFROMLOCAL='本機檔案'
OUT='HDFS 檔案';
RUN;

再來我們主要透過 PROC HADOOP 和 MAPREDUCE 敘述式執行 MapReduce 程式讀取或處理文字檔案執行多種類型的分析。

範例程式碼

1
2
3
PROC HADOOP …;
MAPREDUCE INPUT='HDFS 輸入檔案' OUTPUT='HDFS 輸出檔案' …;
RUN;

最後我們主要透過 FILENAME 敘述式讀取文字分析的摘要結果傳回至 SAS 平台中,以利更進一步分析和產生報表。當客戶端使用者連線至 SAS 中繼資料伺服器之後,中繼資料伺服器將會啟動 Workspace 伺服器工作階段執行由客戶端使用者傳送的程式,其中包括資料連線定義,並且透過 FILENAME Hadoop 存取方法讓 Workspace 伺服器與 Hadoop NameNode 進行溝通傳送資料至分散式 Hadoop 平台中,以及從分散式 Hadoop 平台中取得資料。

範例程式碼

1
2
3
4
5
6
FILENAME fileref 'HDFS 輸出檔案'…;
DATA _null_;
INFILE fileref
INPUT …;

RUN;

相關資源

⬅️ Go back