Leo Yeh's Blog

SAS Viya (65)

教學目標

初步了解部署 SAS Viya 搭配 DNFS 分散式儲存的基本概念。

重點概念

首先我們已經不再局限僅能夠使用搭配 HDFS 分散式儲存 SAS Viya 平台中分散式平行處理架構,更能夠提供 DNFS 分散式儲存,請注意這是 SAS 特定的專有名詞縮寫,其引用了分散式網路檔案系統 (Distributed Network File System, DNFS) 的概念,其不僅限於標準的 NFS 協定,而是所有 CAS Worker 伺服器皆需設定在同一目錄路徑形式集中儲存,以利在所有 CAS Worker 伺服器皆在完全相同的本地路徑上查找資料, 也就是說我們能夠使用網路檔案系統 (Network File System, NFS),網路附加存儲 (Network Attached Storage, NAS),直連附加儲存 (Direct-attached Storage, DAS),儲存陣列網路 (Storage Array Network, SAN),獨立磁盤冗餘陣列 (Redundant Array of Independent Disks, RAID)、將多個磁碟空間合併成一個大的邏輯磁碟 (Just a Bunch of Disks, JBOD) 等等。

接著 DNFS 分散式儲存中的「D」代表分散式,但其不一定是指網路檔案系統,根據定義其已經進行分散,因為檔案系統在 CAS Worker 伺服器的外部,以利 CAS Worker 伺服器以大規模平行處理方式從每個節點存取 (讀取和寫入) 檔案系統中的 CSV 和 SASHDAT 檔案,請注意平行檔案存取不是檔案系統的屬性,其是 CAS 中的功能,根據定義網路檔案系統以利於在檔案層級進行存取,而不是區塊層級,因此若使用 DNFS 則 CAS 會主動管理網路檔案系統的平行處理區塊層級 I / O,確保檔案搜尋位置和區塊層級 I / O 操作不重疊。此外 CAS 不僅可以從網路檔案系統中執行平行處理 I / O,更可以將 NFS 上的 SASHDAT 檔案直接記憶體對應至 CAS 中。因此 NFS 上的 SASHDAT 檔案既充當 CASLIB 資料來源,又能夠用於虛擬記憶體的後備儲存,通常無需使用 CAS_DISK_CACHE,所以建議 DNFS 使用的任何網路檔案系統都必須支持記憶體對應 ( Memory Mapping, mmap)。請注意資料載入轉換,像是列過濾、欄選擇或加密將會使用 CAS_DISK_CACHE 使用,主要是因為必須轉換資料的子集或解密,CAS 會將轉換後的資料複製到 CAS_DISK_CACHE 以支援 CAS 處理,此外我們也能夠在加密檔案系統或硬體存儲設備上使用DNFS,主要會將被加密儲存,解密之後傳輸至 CAS 中進行處理。

再來 NFS 主要是一種分散式檔案系統通訊協議,允許伺服器透過網路存取檔案,資料主要會透過標準網路連接,像是公司區域網路上的以太網,所以若經常傳輸大量資料,則該流量會與其他活動競爭,甚至完全使網路飽和,NFS 設定很簡單,並且受大多數主要作業系統的支援,但是面對多重繁重的並行處理活動,其並不是非常強大。至於 NAS 解決方案則是外部設備,充當環境的集中的檔案伺服器,其使用 NFS 協議從伺服器存取檔案,這種方法的好處是 NAS 設備專門用於共享文件,並且根據需求進行優化,同時由於依賴於 NFS 協議,因此仍然使用標準網路連接傳輸數據,所以 NAS 適合企業正式環境使用,因為其可以管理專用設備,並且監控活動以確保網路上的足夠效能和輸出量。

最後我們更能夠選擇 SAN 解決方案,一般來說 SAN 解決方案將會勝過 NAS 解決方案,但是其通常會需要更高的成本,其主要使專用的連接,像是 HBA 端口、光纖通道卡和 SAN 控制器等等,而不是依賴於標準網路連接來存取其檔案的客戶端,這將更有效地移動資料,因此它不會與標準網路流量競爭。此外許多企業內部環境僅提供叢集檔案系統 (Clustered File System, CFS),但是 CFS 通常僅是用於擴展存儲設備功能,叢集檔案系統提供了許多好處,主要包括管理對於存儲設備中的檔案和目錄的多個平行處理,以利提供高效的存取讀寫能力,而 SAS 解決方案特別適用於 IBM Spectrum Scale,也就是 GPFS,請注意雖然 CFS 可應用於 SAS 部署所有方面,但是應盡量減少其在特別需要的區域使用。

總結在 SAS Viya 平台中的分散式平行處理架構我們能夠搭配 DNFS 分散式儲存共享檔案系統,以利 SAS 解決方案能夠有效擴展,同時高效能執行,但還是建議與企業的資訊單元進行規劃和討論,以選擇最適合部署 SAS Viya 平台分散式平行處理架構的 DNFS 分散式儲存。

相關資源

⬅️ Go back