Leo Yeh's Blog

SAS 系統管理 (61)

教學目標

初步了解 SAS 平台進行災難復原的基本概念。

重點概念

首先災難復原 (Disaster Recovery,DR) 主要涉及一系列政策和程序,以利在發生自然災害或人為災害之後,恢復或維持重要的技術基礎設施和系統。我們皆知道災害是無法被避免,然而詳細的規劃將能夠將業務營運的災害影響降至最低。第一步我們必須記錄和定期驗證災難復原計劃,並且在各方意見之間達成一致的意見和認同過程。第二步我們需要備份內容,並且透過備份的方法頻率最大限度的降低停機時間和資料遺失,此時我們需要測量二項指標,分別為:

  1. 系統恢復時間 (Recovery Time Objective,RTO)
  2. 資料回復點 (Recovery Point Objective,RPO)

其中所謂系統恢復時間主要是在發生重大事件,在滿足客戶需求的情況下 SAS 應用程式必須恢復的時間,也就是可容忍的系統中斷服務時間。至於資料回復點則是必須從備份儲存中恢復檔案的時間點,以利繼續正常進行操作,也就是可容忍的資料損失。

接著在 1997 年 Geoffrey H. Wold 學者提出十個有關災難復原規劃的方法,分別為:

  1. 獲得最高管理層的承諾。
  2. 成立計劃委員會。
  3. 執行風險評估。
  4. 確定處理和操作的優先等級。
  5. 確定恢復策略。
  6. 收集資料。
  7. 組織和記錄文件計劃。
  8. 製定測試標準和程序。
  9. 測試計劃。
  10. 獲得計劃的核准。

其中與 SAS 應用程式比較相關的方法則是確定處理和操作的優先等級、確定恢復策略、收集資料和測試計劃。確定處理和操作的優先等級主要需要決定 SAS 應用程式的使用者關鍵需求的優先等級,並且確定每個 SAS 使用者在沒有 SAS 應用程式的情況下可以執行的時間,並且加入至恢復目標時間中。確定恢復策略主要是建立服務層級協議 (Service Level Agreement,SLA),其中包括 SAS 應用程式備份和執行所需的時間,以及達到什麼等級,像是不會遺失超過一天的更新。收集資料主要則是 SAS 應用程式和資料文件需要有備份頻率。測試計劃主要則是可以啟動 SAS 部署精靈確保正常工作,並且查看所需的所有檔案,以利在必要時恢復災害,以利確保 SAS 平台能夠順利運作。

再來在 SAS 平台中主要有三個不同的領域需要進行複雜,以利確保 SAS 基礎架構和關聯來源資料檔案的功能,並且能夠在恢復之後進行更新,分別為:

  1. SAS 部署軟體、第三方應用程式和作業系統。
  2. SAS 基礎架構和設定檔。
  3. SAS 資料檔案。

最後針對 SAS 部署軟體、第三方應用程式和作業系統我們主要會採用完整系統的備份,針對對SAS 基礎架構和設定檔主要包括 SAS 中繼資料儲存體、SAS 伺服器設定目錄、SAS 內容伺服器儲存體、LSF 安裝目錄、… 等管理設定,我們主要會採用 SAS Deployment Backup and Recovery Tool 進行備份和還原與 SAS 服務相關聯的內容。針對 SAS 資料檔案,則會區分資料庫和檔案進行不同方式的備份。

總結 SAS 平台針對災難復原計劃主要則是確定處理和操作的優先等級、確定恢復策略、收集資料和測試計劃,並且透過 SAS Deployment Backup and Recovery Tool 進行備份和還原與 SAS 服務相關聯的內容。

相關資源

⬅️ Go back