Leo Yeh's Blog

SAS 系統管理 (62)

教學目標

初步了解 SAS 平台如何配合災難復原計劃。

重點概念

首先災難復原計劃主要是企業永續中的一部份,主要著重在災難中的資料復原,並且縮短災難發生時對於營業中斷影響的時間,以利加速復原。此時災難復原計劃對於任何關鍵業務系統將會非常的重要,當然也包括 SAS 平台和解決方案,同時客戶通常會為了 SAS 部署、SAS 應用程式和資料檔案製定災難復原計劃。但是由於每個客戶皆是高度客製化的解決方案,因此對於複製 SAS 內容可能會有不同的要求,因此沒有任何一種工具或流程可以全面滿足所有 SAS 災難復原的需求。

接著所謂災難復原包括在地備援和異地備援,其中在地備援也就是高可用性和叢集架構,僅有備援是不夠的,必須要能夠復原才是目標,在從 IT 災難事件中復原時,時效是最重要的事情,因為當重要資料、網路或資訊系統無法存取之後,損失將會隨著時間快速增加,因此若有一套計劃來因應災難事件,那麼將可以有系統、有組織的將災難事件時間縮短,其目標皆為企業永續運作。災難復原與高可用性不一樣,雖然這兩個概念皆與企業永續相關,但是高可用性是有關提供不間斷的操作,而災難復原涉及一定的停機時間,通常以天為單位。SAS 建議根據常規的完整系統映像備份或系統複製的方式來預測災難恢復,並且定期驗證災難恢復的過程。

再來資料備份的目的是為了在災難發生或設備故障時,保護資料避免遭受到破壞或將破壞的程度減至最小。資料備份主要是將資料從系統中複製搬移至另一個備份媒體上的方法。對於企業組織而言,資料備份最重要的是在備份與復原的時間皆能降至最低,以利減少在資料備份和復原的作業過程中,對於企業組織內的資訊系統運作帶來的衝擊與影響。資料備份主要可以分為三種,分別為:

  1. 完整備份。
  2. 遞增備份。
  3. 差異備份。

所謂完整備份在 SAS 平台中則是完整系統備份,其主要是使用所有磁碟複製或磁碟映像檔來創建和維護產生作業環境完整系統的備份,若有必要,請使用計劃的文件進行系統備份,以及第三方資料庫備份和作業系統支援其它備份機制來補充定義排定的磁碟映像。至於需要完整備份的項目有:

  1. 作業系統。
  2. 作業環境。
  3. 所有使用者主目錄。
  4. 所有第三方應用程式。
  5. SAS 部署。
  6. SAS 資料檔案。
  7. 外部資料檔案。

請注意若只有複製 SAS 部署則不是完整系統備份,此外若 SAS 正式環境是以虛擬化或容器為主,則可以使用虛擬化或容器軟體進行全系統備份。

所謂遞增備份在 SAS 平台中則是批次導入和導出工具,此方法使用以批次處理模式執行 SAS 升級工具來備份基於中繼資料的 SAS 內容。若透過此方法,則軟體將從正式環境中導出備份,並且導入至災難復原的環境中。

所謂差異備份在 SAS 平台中則是遷移實用工具包,此方法使用從正式環境建立遷移包在故障發生之後設定新的災難恢復系統,請注意災難復原環境必須與正式環境具有相同的拓撲結構。

最後每種災難復原的方法皆有限制性,因此需要多種支援的方法才能夠滿足業務需求的資料回復點 (Recovery Point Objective,RPO) 和系統恢復時間 (Recovery Time Objective,RTO)。此外我們還會考慮營運復原水準 (Recovery Level Objective,RLO) 主要是指指災難發生之後,資訊系統在營運復原時間內復原第一時間可提供之服務水準,其中包括網路頻寬、備援電力、系統功能、技術人員、…等考量項目。待恢復基本運作,也就是符合營運復原水準之後一段時間持續恢復才能夠恢復正常運作。

總結針對災難恢復計劃相關程序應有詳細記錄,並且經過仔細驗證和定期執行下述三個階段,分別為:

  1. 預防 (災前):組織應該於事前確認系統的弱點與重要資料,並且訓災難復原團隊,確保災難發生時能夠更容易且快速的展開。建議透過 SAS 平台中的相關工具定期備份中繼資料、重要資料檔和相關設定檔。
  2. 持續 (災中):災難發生期間,需要確保組織能夠正確的持續運作。建議透過 SAS 平台中的備份與還原等相關工具進行災難復原,以及重啟 SAS 平台相關服務。
  3. 復原 (災後):此階段主要是將關鍵系統、資源恢復到日常運作的狀態,使組織在異地機房仍可正常營運。建議透過 SAS 平台管理工具驗證伺服器相關功能是否正常運作。

相關資源

⬅️ Go back