SAS Viya (28)

教學目標

初步了解 SAS Viya 平台整合 Hadoop 的基本概念。

重點概念

首先 SAS Viya 平台整合 Hadoop 主要有二種方式,分別為:

  1. CAS SASHDAT Access to HDFS:主要將 HDFS 中的資料載入至分散式 CAS 伺服器。
  2. Access Data in Hive:主要將 Hive 中的資料載入至分散式 CAS 伺服器。

接著 CAS SASHDAT Access to HDFS 主要有兩種部署方式,分別為:

  1. CAS Server Co-located with Hadoop:主要是將 CAS 伺服器部署至 Hadoop 節點中,我們主要會將 CAS Controller 部署至 NameNode 伺服器中,以及將 CAS Worker 部署至 DataNode 伺服器中。
  2. Remote Access to HDFS:主要是將 CAS 伺服器獨立部署,並且遠端連線 HDFS 節點,請注意 CAS 節點和 HDFS 節點必須無密碼 SSH 連線,以及 csv 檔案僅能存取,但無法儲存回 HDFS 中。

此外部署步驟主要有三階段,分別為:

  1. 編輯 vars.yml 設定檔。
  2. 載入 Jar 檔至 Hadoop 平台中。
  3. 重啟 HDFS 和 YARN 服務。

再來 Access Data in Hive 主要有兩種處理方式,分別為:

  1. Serial Processing:主要是設定 SAS Data Connector to Hadoop 以利將 Hive 中的資料依序載入至分散式 CAS 伺服器中。
  2. Parallel Processing:主要是設定 SAS Data Connector to Hadoop 以利將 Hive 中的資料依序載入至分散式 CAS 伺服器中。

此外部署步驟主要有三階段,分別為:

  1. 修改 inventory.ini 檔案。
  2. 透過 hadooptracer-launch.yml 進行設定。
  3. 透過 hadooptracer-validation.yml 進行驗證。

最後 SAS Viya 平台預設有 CAS SASHDAT Access to HDFS 功能,但是若要使用 Access Data in Hive ,則我們需要加購 SAS/ACCESS to Hadoop 產品。

總結 SAS Viya 平台能夠根據客戶的需求整合 Hadoop 平台,主要讓使用者能夠存取 HDFS 和 Hive 中的資料。

相關資源