SAS 系統管理 (100)

教學目標

初步了解 SAS 9 平台設定 SAS/ACCESS Interface to Hadoop 的重點概念。

重點概念

首先當使用者需要透過 SAS Enterprise Guide 存取 Hadoop 平台中的資料時,通常會有 ODBC 和 SAS/ACCESS 兩種方式,建議採用 SAS/ACCESS 的方式,以利進行更快速的存取。當我們安裝完成 SAS/ACCESS Interface to Hadoop 之後,則需要透過 SAS 部署管理員工具取得存取 Hadoop 平台所需要的 JAR 檔和設定檔至 SAS 客戶端機器,請注意若是伺服器版本,則 SAS 伺服器對於 Hadoop 平台而言就是 SAS 客戶端機器,我們必須以系統管理員帳號執行 SAS 部署管理員工具,點選「Configure Hadoop Client Files」進行設定,若以 Cloudera 的 Hadoop 平台為例,則我們主要將會連線至 7180 連接埠的 Hadoop 叢集管理伺服器資訊,並且輸入 Hadoop 叢集管理伺服器的管理員帳號和密碼。

接著若是輸入 Hadoop 叢集管理伺服器的管理員帳號和密碼正確無誤,則會自動取得 Hive、Impala、Oozie 服務的主機名稱,請注意此處每個服務僅能夠有一個主機名稱,若有多個則會出現錯誤,無法進行下一步操作。此外我們還需要以 SSH 連線至 Hadoop 叢集伺服器,主要有兩種方式進行驗證,分別為私鑰和密碼,一般來說,就是 root 帳號和密碼,請注意 Hadoop 叢集伺服器必須先啟用允許密碼登入 SSH 連線,才能夠使用密碼方式進行驗證,以及我們還需要設定 SAS 專用的 Hadoop 客戶端 JAR 檔和設定檔目錄,請注意此資料夾是設定至 SAS 客戶端機器中。

再來我們可以選擇是否要執行驗證的步驟,基本上就是在「Run Validation」步驟中勾選「SAS/ACCESS Interface to Hadoop」預設會進行驗證,主要輸入 Hive 相關連線資訊,包括 Schema、使用者和密碼,請注意若是有錯誤發生可以查看 Linux 的設定資料夾「/your-home/.SASAppData/SASDeploymentWizard」或 Windows 的設定 Log 檔資料夾「C:\users\your-account\AppData\Local\SASDeploymentWizard」的記錄檔,以利找出發生錯誤的原因,我們設定時就曾經遇過授權碼不符合或 Hive 帳號沒有權限存取 Schema 導致驗證錯誤。

最後當設定完成「SAS/ACCESS Interface to Hadoop」設定之後,我們就能夠透過客戶端的 SAS Enterprise Guide 工具連線至 SAS 伺服器,並且執行以下 SAS 程式進行 Hadoop 函式庫宣告,以利再次進行 SAS 伺服器存取 Hadoop 平台的測試與驗證。

1
libname hdp hadoop server=hxpduped port=10000 schema=default  user=myusr1 password=mypwd1;

相關資源