SAS LASR Analytic Server

SAS 資訊安全 (6)

基本介紹

教學目標

初步了解 SAS Visual Analytics 與 SAS LASR Analytic Server 授權權限的存取控制。

重點概念

身為 SAS Visual Analytics 管理者將會需要有效率的管理 SAS LASR Analytic Server,此時要如何確保對的資料被對的人存取。在 SAS Visual Analytics 中主要有三個層級權限的設定,分別為:

  1. 角色和群組存取權限。
  2. 中繼資料存取權限。
  3. 作業系統存取權限。

角色和群組存取權限

在 SAS Visual Analytics 使用者主要以角色為基礎存取網頁應用程式元件,主要有三項主要的任務,分別為:

  1. 新增或刪除使用者。
  2. 定義群組和角色。
  3. 指定使用者至適當的群組和角色。

使用者會被指定至在中繼資料中基於工作功能之不同類型的角色和群組,角色會對應能力,能力是指使用者執行元件的操作,此外 SAS Visual Analytics 主要提供五個預先定義的角色,至於管理者要如何指定正確的群組和角色至使用者帳號則要先回答下述四個問題,分別為:

  1. 使用者需要讀取其它人建立的報表內容嗎?
  2. 使用者需要建立報表或探索資料嗎?
  3. 使用者需要建立和載入資料嗎?
  4. 使用者需要啟動或停止 SAS LASR Analytic Server 嗎?

預先定義的角色主要有五種,分別為:

  1. Visual Analytics: 基本:主要提供來賓存取和入門使用者的功能。
  2. Visual Analytics: 檢視報表:主要提供基本所有功能之外,還提供註解和個人化功能。
  3. Visual Analytics: 分析:主要提供檢視報表所有功能之外,還提供建立報表和勘查的功能。
  4. Visual Analytics: 資料建置:主要提供分析所有功能之外,還提供準備資料的功能。
  5. Visual Analytics: 管理:主要提供除了建置資料之外的所有功能。

在 SAS Visual Analytics 中我們會進行的業務作業,對應至角色的功能,請參考下表。

功能 基本 報表檢視 分析 資料建置 管理
檢視報表
檢視預存程式
匯出列印
電子郵件
個人化
增加和檢視註解
探索資料
自訂圖形
匯出資料

在 SAS Visual Analytics 中我們會進行的管理作業主要有,主要只有分析、資料建置和管理角色才能夠進行管理作業,請參考下表。

功能 基本 報表檢視 分析 資料建置 管理
匯入資料
匯入本機檔案
匯入伺服器上的 SAS 資料集
從資料來源來匯入
重新整理資料
匯出為影像
匯出為報表
分送報表
建置分析模型
建置資料
管理環境
管理行動裝置
管理 LASR Analytic Server
監控 LASR Analytic Server
管理授權
瀏覽 HDFS

(註:請注意若有授權 SAS Visual Statistics 則只有分析角色才可以使用「建置分析模型」的功能。)

至於在 SAS Visual Analytics 中群組和角色的關係為何,請參考下表:

群組 角色
PUBLIC
SASUSERS Visual Analytics: 基本
Visual Analytics 使用者 Visual Analytics: 報表檢視、Visual Analytics: 分析
Visual Analytics 建置管理員 Visual Analytics: 資料建置
Visual Analytics 資料管理員 Visual Analytics: 管理
SAS 管理員 中繼資料伺服器: 使用者管理

一般來說,我們在建立 SAS Visual Analytics 帳號時,會先將該使用者分派至所屬的群組,可能是專案或部門中,其中 PUBLIC 群組代表所有能登入 SAS 伺服器的使用者,SASUSERS 群組代表所有具有 SAS 使用者內部帳號 (user@saspw),並且為使用者授權角色的功能,像是檢視報表或探索資料。此外除了管理使用者之外,也會管理伺服器上的資料內容存取權限,甚至限制不同使用者存取同一張報表時,限制可以存取的內容。基本上,當我們在規劃伺服器上的使用者時,可以區分為伺服器管理師、資料管理師、資料分析師和報表設計師等,所謂伺服器管理師主要為系統服務人員,負責管理伺服器,所謂資料管理師主要為應用程式人員,負責載入資料至伺服器,所謂資料分析師和報表設計師主要為業務單位人員,負責分析資料和製作報表。

中繼資料存取權限

SAS LASR 授權服務主要會與中繼資料授權層級管理使用者存取在 LASR 伺服器 In-memory 中的資料,其中權限定義,請參考下表。

權限 受影響動作
管理 (A) 在 LASR 資料館中載入和匯入表格,在 SAS LASR Analytic Server 上停止伺服器或設定表格限制。
讀取 (R) 在 LASR 資料館中載入和匯入表格,在 LASR 表格中讀取資料,在加密的 SASHDAT 資料上增加、刪除或載入資料。
寫入 (W) 在 LASR 表格上卸載和重新載入表格,在 LASR 表格中附加列、刪除列和編輯計算欄。
讀取中繼資料 (RM) 檢視物件,其中包括報表、表格、資料館和資料,請注意我們需要該物件讀取中繼資料的權限。
寫入中繼資料 (WM) 編輯、重新命名、刪除和設定物件的權限,也就是在物件之間建立特定關聯。
寫入成員中繼資料 (WMM) 在資料夾上新增或移除物件。

管理者會使用者中繼資料授權層級管理透過 SAS Visual Analytics 存取 SAS LASR Analytic Server 中的資源,以利進行分析,請參考下表。

工作 LASR 伺服器 LASR 資料館 LASR 資料夾 LASR 表格
載入表格 RM RM、R、WM、A RM、R、WMM、W
讀取工作 RM RM RM RM、R
附加或刪除列 RM RM RM RM、R、W
編輯計算欄 RM RM RM RM、R、W
載入停止清單 RM、WM RM、R、WM、A RM、R、WMM、W
卸載表格 RM RM RM RM、R、W
啟動伺服器 RM
停止伺服器 RM、A
設定伺服器的表格限制 RM、WM、A
將資料館指派給伺服器 RM、WM RM、WM
在中繼資料中註冊表格 RM、WM RM、WMM
更新表格的中繼資料 RM RM RM、WM
刪除中繼資料中的表格 RM、WM RM、WMM RM、WM

(註:載入 LASR 表格物件,需要有作業系統讀取和寫入資料夾的權限。)

若要建立、更新或刪除報表,還需要 SAS Content Server 的存取權限,也就是報表和勘查中繼資料層級的權限,此外若我們要進行資料查詢和使用 LASR 星狀結構描述時,也需要中繼資料層級的權限,請參下表。

工作 LASR 伺服器 LASR 表格 LASR 資料夾 報表 勘查 查詢或結構描述
開啟報表或勘查 RM RM、R RM RM
匯出報表或勘查 RM RM、R RM RM
修改報表或勘查 RM RM、R RM、WM RM、WM
儲存報表或勘查 RM RM、WMM
刪除報表或勘查 RM RM、WMM RM、WM RM、WM
儲存新的查詢或結構描述 RM RM RM、WMM
執行查詢或結構描述 RM RM RM
編輯和儲存查詢或結構描述 RM RM RM RM、WM
刪除或重新命名查詢或結構描述 RM RM、WMM RM、WM

在 SAS Visual Analytics 中主要是使用中繼資料授權方式管理使用權限,因此針對伺服器上的物件皆可以設定授權,以及表格的列層級授權。此時我們會透過 SAS Visual Analytics 管理者網頁進行授權頁設定授權權限,請參考下表。

授權權限 允許圖示 列層級允許 拒絕圖示 菱形圖示 方形圖示
直接允許套用 ACT 存取
直接拒絕套用 ACT 存取
直接允許存取
直接拒絕存取
間接允許存取
間接拒絕存取
直接允許條件式存取
間接允許條件式存取

其中所謂直接代表為該物件直接進行設定,而間接則是代表該物件繼承的授權,例如我們為 LASR 資料夾設定了讀取中繼資料的權限,則在 LASR 資料夾中的 LASR 表格則繼承此授權,也就是間接存取。此外表格的列層級的授權,主要是讓同一個表格針對不同使用者或群組有不同的讀取權限,像是各分行協理只能看到該分行的財務報表,因為製作財務報表的 LASR 表格僅有一個,所以對該表格設定各分行協理的特定列層級權限授權,請注意若是採用 LASR 星狀結構描述則要設定全部結構描述的權限。

作業系統存取權限

在 SAS 平台中主要有外部帳號和內部帳號,所謂外部帳號指作業系統帳號,而內部帳號指中繼資料伺服器帳號,基本上,我們設定帳號主要會先建立外部帳號 (作業系統帳號) ,加入至 SAS 伺服器使用者群組之後,接著在 SAS Management Console 中建立內部帳號 (中繼資料伺服器帳號),請注意若是 SAS Visual Analytics 管理者若是要具有上傳資料的權限時,則其帳號必須是外部帳號 ,且新增登入定義不需要輸入密碼,以及若一般使用者被授權上傳資料時,則其內部帳號必須有對應外部帳號,然而要如何有效規劃設定,請參考下表。

職稱 職責 群組 角色 內部帳號 外部帳號
系統管理師 管理伺服器 Visual Analytics 資料管理員 Visual Analytics: 管理
資料科學家 上傳資料與伺服器資料共同進行資料探索與進階分析 Visual Analytics 建置管理員 Visual Analytics: 資料建置
業務分析師 透過現有資料製作視覺化分析報表 Visual Analytics 使用者 Visual Analytics: 分析 ×
專案經理 檢視報表追蹤進度。 Visual Analytics 使用者 Visual Analytics: 報表檢視 ×

當我們建立群組時建議以專案和部門建立不同群組,至於針對相同功能的使用者則建議以功能和職責建立不同角色,其中一個使用者可以同時加入不同群組和角色,但是建議一個使用者僅對於一個群組和一個角色,請注意請勿修改 SAS 預設 Visual Analytics 角色功能,因為預設角色為最佳實務的規劃,若有需求是必須修改角色對應功能設定,則請新增新的 SAS 角色,其中包括所需的預設角色之後進行修改。

但若是我們期望該部門或專案只能看到相關資料夾的資料,所以我們會利用 SAS 資料夾管理使用者權限,主要透過 SAS Management Console 進行資料夾權限的授權設定,並且當我們針對主資料夾進行權限設定之後,子資料夾也會直接繼承該權限設定,若有需要也是可以停止繼承進行權限設定。

存取 SAS LASR Analytics Server 授權流程

當使用者開啟 SAS Visual Analytics 網頁客戶端存取資料或報表,就會需要存取 SAS LASR Analytics Server,此時就會需要進行授權,主要有六個步驟,分別為:

  1. SAS Visual Analytics 網頁客戶端會發出存取資料請求至 SAS LASR 授權服務中。
  2. SAS LASR 授權服務會發出請求至 SAS 中繼資料伺服器中。
  3. SAS 中繼資料伺服器會回傳授權決定和安全金鑰至 SAS LASR 授權服務中。
  4. SAS LASR 授權服務會回傳簽章允許 至 SAS Visual Analytics 網頁客戶端中。
  5. SAS Visual Analytics 網頁客戶端會發出簽章允許 至 SAS LASR 分析伺服器中。
  6. SAS LASR 分析伺服器回傳存取資料的結果。

其中當 SAS LASR Analytic Server 啟動時,將會與 SAS Metadata Server 建立安全金鑰,因此客戶端透過 SAS LASR Authorization Service 與 SAS Metadata Server 確認該使用者是否具備中繼資料層級的相關權限,若是則回傳簽章允許 ,其中包括安全金鑰,以利 SAS Visual Analytics 客戶端透過授權資訊 (Signed Grant) 至 SAS LASR Analytic Server 存取資料,此時 SAS LASR Analytic Server 會透過安全金鑰驗證簽章允許 是否有效。

總結 SAS Visual Analytics 與 SAS LASR Analytic Server 授權權限的存取控制非常具有彈性能夠有效符合企業的報表分析需求,但是若沒有深入了解存取控制的管理方式將會造成後續維運的問題,需要特別小心僅慎。

相關資源

SAS 系統管理 (37)

教學目標

初步了解 SAS LASR Analytic Server 如何載入資料至記憶體中進行分散式分析任務。

重點概念

首先 SAS LASR Analytics Server 主要是針對 SAS Viusal Analytics 和 SAS Visual Statistics 解決方案的 In-memory 分析引擎,其被設計應用於大量具擴展性的分散式環境。其中 SAS Visual Analytics 解決方案提供分散式運算環境主要包括兩個關鍵的產品,分別為:

  1. SAS High-Performance Analytics Infrastructure
  2. SAS LASR Analytics Server

SAS High-Performance Analytics Infrastructure

所謂 SAS High-Performance Analytics Infrastructure 主要在高效能的環境中執行分析任務,特性為大量平行處理 (Massively Parallel Processing,MPP),此架構被使用於在分散式資料儲存一體機或 Hadoop 叢集進行大數據的分析架構,其中我們會透過 SAS Plug-ins for Hadoop 套件進行 Hadoop 平台相關連線設定,其中 Hadoop 平台主要是專注在硬碟儲存空間的應用。

SAS LASR Analytics Server

所謂 SAS LASR Analytics Server 主要是 In-memory 引擎提供非常快速和擴展分析的效能,相當於 SAS Viusal Analytics 的大腦,其中 LASR 伺服器主要是專注在記憶體儲存空間的應用。此外透過 SAS High-Performance Analytics Infrastructure 架構將能夠有整合 Hadoop 平台與 SAS LASR Analytics Server 在高效能的環境中執行分析任務。

Hadoop Name Node 和 LASR Root Node

所謂 Hadoop Name Node 主要負責叢集中 Hadoop 軟體服務,其主要持續追蹤所有在 Hadoop 分散式檔案系統 (Hdoop Distributed File System,HDFS) 中的活動,以及管理叢集以利確保資料可用性。然而所謂 LASR Root Node 主要負責 SAS LASR Analytic Server 的服務,其主要控管請求,以及直接進行所有 In-memory 分析處理的活動,接著回傳結果。因此若我們以 Hadoop 平台為 LASR 的資料提供者時,則必須將 Hadoop Name Node 和 LASR Root Nmae 放在相同主機中。

Hadoop Data Node 和 LASR WorkersNode

所謂 Hadoop Data Node 主要負責儲存資料在硬碟中,因此此硬碟儲存系統會是非常關鍵的硬體元件,並且為每台主機上獨立的服務,此外並不會分享任何硬體資源給其它節點。然而所謂 LASR Worker Node 主要負責在每台機器的記憶體中執行資料分析的功能,因此此記憶體會是非常關鍵的硬體元件。因此若我們以 Hadoop 平台為 LASR 的資料提供者時,則必須將 Hadoop Data Node 和 LASR Worker Nmae 分享至相同主機中。

Hadoop 處理流程

所謂 Hadoop 處理流程為當檔案儲存在 HDFS 中時,其將會被打散至區塊中,Hadoop Name Node 將會指定區塊給叢集中不同的 Hadoop Data Node,以利確保在面對硬體損毀時資料的可用性,若有其中一個 Hadoop Data Node 損毀則其它 Hadoop Data Node 針對損毀區塊將會進行復原 。然而每個區塊皆會被複製,預設設定為三次,因此複製將會直接影響硬碟空間的使用量,例如儲存 1 TB 的資料在 HDFS 中則在叢集中必須要有 3 TB 的硬碟空間。

SASHDAT 資料表

所謂 SASHDAT 資料格式是二進位和壓縮的儲存結構,它主要是被用於優化在平行高效能環境的分析處理,當 SASHDAT 資料表被建立在 HDFS 中時,其區塊會被平均分散至所有 LASR Workers Node 機器中以利確保每一個節點主機有相同數量的資料。然而每個區塊皆會複製,預設設定為二次,因此複製將會直接影響硬碟空間的使用量,例如儲存 1 TB 的資料在 HDFS 中則在叢集中必須要有 2 TB 的硬碟空間。

SAS LASR Analytic Server 處理流程

所謂 SAS LASR Analytic Server 是由 LASR Root Node 和被分散至多台機器的 LASR Workers Node 群組所組成,所以 SAS LASR Analytic Server 為持續性 In-memory 分析,意指其被設計於處理已載入至記憶體中的大量資料,當資料在記憶體中時,代表無需等待硬碟的存取,使得 LASR 能夠更快速的進行處理,同時不僅多張資料表可以被增加至 SAS LASR Analytic Server 中,也能啟動多個 SAS LASR Analytic Server彼此之中獨立運作。

在 SAS LASR Analytic Server 中載入資料作業

當資料載入至 SAS LASR Analytic Server 中將能夠透過 Base SAS 與 SAS/ACCESS 引擎進行存取,一般來說,我們皆是循序將資料載入至 LASR Root Node 中,接著 LASR Root Node 才會將資料平均分散儲存至 LASR Workers Node 記憶體中,其步驟分別為:

  1. SAS Compute Service 從來源資料讀取資料。
  2. SAS Compute Service 傳送資料至 SAS LASR Analytic Server 中的 LASR Root Node。
  3. LASR Root Node 將資料平均分散至 LASR Workers Node 中。(註:此步驟可能會有 Bottleneck 在 LASR Root Node 中。)
  4. LASR Workers Node 將資料儲存至關聯 Hadoop Data Node 的 HDFS 儲存空間中當成 SASHDAT 資料表。
  5. SASHDAT 資料表對應在 HDFS 中的區塊將會被直接載入至每台 Hadoop Data Node 關聯 LASR Workers Node 的記憶體中。

在 SAS LASR Analytic Server 中執行分析作業

當載入完成大量資料至 LASR Worker Node 的記憶體中時,接著當 LASR Root Node 接到分析請求時,其會將請求針對資料區塊對應的所有 LASR Worker Node 執行分析作業,其六步驟分別為:

  1. 當使用者想要查看報表時,SAS 網頁應用程式就會發出請求至 SAS LASR Analytic Server 執行分析作業,請注意報表對應的資料必須儲存在 LASR Workers Node 記憶體中。
  2. LASR Root Node 直接透過 LASR Workers Node 執行針對節點中的資料執行必要計算。
  3. LASR Workers Node 回傳計算結果給 LASR Root Node 中。
  4. LASR Root Node 等待所有 LASR Workers Node 回傳計算結果,之後計算最後答案的結果。
  5. LASR Root Node 回傳答案的結果資料集,接著使用者就能夠查看報表了。

最後 SAS LASR Analytic Server 中的 LASR Workers Node 建議相同的硬體規格,以利進行資料量的評估,另一方面 LASR Root Node 會等待所有 LASR Workers Node 分析回傳結果。

總結 SAS Visual Analytics 解決方案提供分散式運算環境進行分析任務,主要包括兩個關鍵的產品為 SAS High-Performance Analytics Infrastructure 和 SAS LASR Analytics Server,以及搭配不同的資料提供者,像是 Hadoop 平台,就能夠自動將資料轉換為 SASHDAT 格式儲存至 SAS LASR Analytics Server 的記憶體中,以利進行分散式分析任務。

相關資源

SAS 系統管理 (36)

教學目標

初步了解如何管理 SAS LASR Analytic Server 中的 LASR 伺服器和 LASR 表格。

重點概念

管理 LASR 伺服器

首先我們主要使用 SAS Visual Analytics 網站服務中的「管理員」工具,其中我們可以透過「LASR Servers」頁面啟動和停止「LASR Analytic Server」或「Public LASR Analytic Server」,所謂「LASR Analytic Server」主要具備存取控制和權限控管,因此我們通常會載入僅讓內部使用者存取的資料表,然而所謂「Public LASR Analytic Server」主要不具備存取控制和權限控管,因此我們通常會載入可讓外部使用者存取的資料表,所以我們通常僅會執行「LASR Analytic Server」,至於「LASR 伺服器」頁面中主要包括狀態、表格記憶體(MB)、表格限制(MB)、主機、連接埠、啟動者、描述、啟動時間和存取時間等資訊,請參考下表。

伺服器 LASR Analytic Server Public LASR Analytic Server
狀態 正在執行 正在執行
表格記憶體(MB) 0.0 1,575.81
表格限制(MB)
主機 www.company.com www.company.com
連接埠 10011 10031
啟動者 lasradm lasradm
描述 SAS LASR Analytic server and the machine to which it is associated. Visual Analytics Public LASR Server.
啟動時間 2017/09/21 上午 03:50 2017/09/21 上午 03:50
存取時間 2017/09/21 上午 03:50 2017/09/21 上午 03:50

(註:「LASR Analytic Server」為 10011 連接埠,「Public LASR Analytic Server」為 10031 連接埠,至於 10021 連接埠「SAS Deployment Tester Server」主要進行部署測試的伺服器,此外「SAS High-Performance Configuration Management Console Server」則是 10020 連接埠,所謂「SAS High-Performance Configuration Management Console Server」是指提供系統管理員管理 SAS 軟體高效能運算環境 (High-Performance Configuration,HPC) 的伺服器。)

此外啟動或停止 LASR 伺服器時,我們需要注意哪些事項呢?

  1. 若當 LASR 伺服器主機重新開機時,我們必須手動將 LASR 伺服器重新啟動,確認伺服器為「正在執行」狀態,才能維持正常運作,建議先點選「標籤初始化時取得狀態」,再按下「重新整理此標籤」就能夠檢視所有 LASR 伺服器或 LASR 表格的狀態,否則我們需要個別點選檢視狀態的伺服器。
  2. 若是 LASR 伺服器為「已停止」狀態,則使用者無法存取該 LASR 伺服器上的表格,以及關聯的報表皆會失效。
  3. 若當伺服器停止時,載入的表格皆會從記憶體中被移除。

接著我們可以根據不同專案的需求建立新的 LASR 伺服器,以利我們將不同專案分為不同伺服器,可分別進行管理上傳的表格,其中若是專案結束則可停止伺服器,釋出記憶體資源,以及分別設定專案的表格上傳限制,管控資源的使用,至於操作主要有七個步驟。

  1. 開啟 SAS Management Console 工作點選「環境管理」->「伺服器管理員」->「新增伺服器」。
  2. 選取「SAS 伺服器」中的「SAS LASR Analytics Server」。
  3. 輸入「名稱」和「描述」以利管理伺服器。
  4. 設定「單一伺服器」為「是」,同時設定「High Performance Analytics 環境安裝位置」。
  5. 點選「進階選項」主要針對「記憶體限制」和「記錄選項」進行設定。
  6. 設定「連接埠號碼」為「10014」和「High-Performance Analytic 環境主機」為 LASR 伺服器的主機名稱。
  7. 設定此 LASR 伺服器的管理者權限,預設為「Visual Analytics 資料管理員」群組。

管理 LASR 表格

再來當我們啟動「LASR 伺服器」之後,才能夠在「LASR 表格」頁面載入來源資料集至記憶體中 LASR 資料表,我們能夠透過同一個操作介面卸除載入和重新載入 LASR 資料表,以及刪除已被卸除載入的 LASR 資料表之中繼資料,我們僅需要在「LASR 表格」頁面中選取表格之後,像是「VA_SAMPLE_ACME_BANK」,接著按右鍵選擇對應的動作,主要有重新載入、卸載、刪除、取得狀態、上次動作日誌。

表格 VA_SAMPLE_ACME_BANK
狀態 已載入
大小 256.29MB
位置 /Products/SAS Visual Analytics/Samples
伺服器 Public LASR Analytic Server
載入時間 2017/09/21 上午04:40
399,920
66
資料館 Visual Analytics Public LASR
修改時間 2017/09/21 上午04:40
載入者 lasradm
LASR 名稱 VAPUBLIC.VA_SAMPLE_ACME_BANK
描述

此外我們可以限制不同 LASR 伺服器上傳表格的大小,以利我們控管每個 LASR 伺服器所使用的資源,我們主要在「LASR 伺服器」頁面中,點選欲設定限制上載表格大小的 LASR 伺服器,接著點選「表格限制 (MB)」的空格直接輸入上限即可,此時我們需要注意哪些事項呢?

  1. 當有 LASR 伺服器的表格大小總合超過或等於上限時,則任何新增的表格皆無法上傳,請注意當我們設定 LASR 伺服器表格上限為 10GB,同時已經使用 9.9GB,此時仍可上傳任何大小的表格,但是上傳之後就無法再上傳因為已經超過限制上限,此時會出現「伺服器超過容量,無法載入表格。」錯誤訊息。
  2. 表格的限制並不會占用記憶體,僅會限制該伺服器可使用的空間,所以無需擔心設定太大導致記憶體不足。

最後我們可以點選「LASR 表格」頁面中的「載入表格」,設定「來表源表格」的「名稱」,接著設定「LASR 表格」的資訊,主要有名稱、壓縮資料、描述、位置和資料館指定在 SAS LASR Analytic Server 載入表格的設定,當我們確認內容無誤之後,就能夠按下「確定」開始載入表格,若是遇到「與選取資料館關聯的 LASR Analytic Server 沒有執行。」錯誤訊息則代表 LASR Analytic Server 沒有啟動,此時僅需要先啟動「LASR Analytic Server」再重複上述的步驟就能夠順利載入表格至「LASR Analytic Server」中。

總結管理 SAS LASR Analytic Server 主要重點有二大部份,分別為管理 LASR 伺服器和管理 LASR 表格,此外我們會可以針對不同專案建立專屬的 LASR 伺服器,同時進行 LASR 表格的記憶體資源控管。

相關資源

SAS 基本介紹 (17)

教學目標

初步了解 SAS 平台中存取 Hadoop 資源的方式。

重點概念

Hadoop 主要是大數據的儲存與處理技術,主要有三個主要的資源,分別為 HDFS、MapReduce (YARN) 和 Hive,然而在 SAS 平台中主要有六種產品以不同的方式存取 Hadoop 資源,分別為 Base SAS、SAS Scalable Performance Data Server、SAS LASR Aanlytic Server、SAS/ACCESS Interface to Hadoop、SAS In-Database 和 SAS Data Loader for Hadoop。

Base SAS

SAS 平台可以透過 SAS 程式直接存取 HDFS,主要讀取和寫入純文字檔案,我們將會需要使用 FIENAME 和 LIBNAME 敘述設定,接著透過 DATA STEP、PROC SQL 和 PROC SQOOP 進行直接存取。

SAS/ACCESS Interface to Hadoop

SAS 平台可以透過 SAS/ACCESS Interface to Hadoop 產品以 Hive 直接讀取和寫入 HDFS 中的資料,相當於提供 SQL Pass-Through 功能,此外我們的還可以傳送 HiveQL、MapReduce 和 Pig 程式在 Hadoop 中執行,我們將會需要使用 LIBNAME 敘述設定,接著透過 DATA STEP 進行間接存取。

SAS Scalable Performance Data Server

SAS 平台可以透過 SAS Scalable Performance Data Server 提供資料儲存系統優化交付資料的速度,因此 SAS 平台主要讀取和寫入儲存在 SAS Scalable Performance Data Server 的檔案,我們將會需要使用 LIBNAME 敘述設定,接著透過 DATA STEP 進行存取。

SAS LASR Analytic Server

SAS 平台可以透過 SAS LASR Analytic Server 提供多使用者平行安全存取載入至記憶體資料的分析平台,因此 SAS 主要讀取和寫入儲存在 SAS LASR Analytic Server 中的 SASHDAT 檔案格式直接存取 HDFS 檔案,所謂 LASR 是指 In-memory 分析引擎主要被用於載入來自任何可被 SAS 存取的資料來源。所謂 SASHDAT 格式主要是提供快速和最有效率的機制載入大量的資料至 LASR LASR Analytic Server 中。

SAS In-Database

SAS 平台可以透過 SAS In-Database 產品協助我們以 Hadoop 中 的 SAS Embedded Process (EP) 關鍵元件執行 MapReduce 工作,同時能夠加快在 SAS 解決方案中的執行程式和資料品質功能,以及支援平行資料載入至遠端的分散式 LASR Analytic Server 中。

SAS Data Loader for Hadoop

SAS 平台可以透過 SAS Data Loader for Hadoop 產品協助我們以使用者介面存取、清理和管理在 HDFS 中的資料,主要有三個階段分別為獲取 & 探索、轉換 & 整合以及清理 & 交付,也就是準備大數據的自主服務,其中大數據就是指儲存在 Hadoop 中的資料。

總結在 SAS 平台中我們將能夠搭配六種產品以不同的方式存取 Hadoop 中不同的資源,包括 HDFS、MapReduce (YARN) 和 Hive,請參考下表。

HDFS MapReduce (YARN) Hive
Base SAS
SAS Scalable Performance Data Server
SAS LASR Analytic Server
SAS/ACCESS Interface to Hadoop
SAS In-Database
SAS Data Loader for Hadoop

相關資源