什么是容災系統(tǒng)及系統(tǒng)分類
容災系統(tǒng)是指在相隔較遠的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進行健康狀態(tài)監(jiān)視和功能切換,當一處系統(tǒng)因意外(如火災、地震等)停止工作時,整個應用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。容災技術是系統(tǒng)的高可用性技術的一個組成部分,容災系統(tǒng)更加強調處理外界環(huán)境對系統(tǒng)的影響,特別是災難性事件對整個IT節(jié)點的影響,提供節(jié)點級別的系統(tǒng)恢復功能。
容災分類
從其對系統(tǒng)的保護程度來分,可以將容災系統(tǒng)分為:數(shù)據(jù)容災和應用容災
描述如下:
數(shù)據(jù)容災就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個實時復制。
應用容災是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份),在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行。數(shù)據(jù)容災是抗御災難的保障,而應用容災則是容災系統(tǒng)建設的目標。
數(shù)據(jù)容災
所謂數(shù)據(jù)容災,就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關鍵應用數(shù)據(jù)的一個可用復制。在本地數(shù)據(jù)及整個應用系統(tǒng)出現(xiàn)災難時,系統(tǒng)至少在異地保存有一份可用的關鍵業(yè)務的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產數(shù)據(jù)的完全實時復制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。采用的主要技術是數(shù)據(jù)備份和數(shù)據(jù)復制技術。
數(shù)據(jù)容災技術,又稱為異地數(shù)據(jù)復制技術,按照其實現(xiàn)的技術方式來說,主要可以分為同步傳輸方式和異步異步傳輸方式(各廠商在技術用語上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占I/O比重比較大時,相對同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災的距離,數(shù)據(jù)容災又可以分成遠程數(shù)據(jù)容災和近程數(shù)據(jù)容災方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對數(shù)據(jù)容災展開討論,其中也會涉及到遠程容災和近程容災的概念,并作相應的分析。
應用容災的方法
所謂應用容災,是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份)。建立這樣一個系統(tǒng)是相對比較復雜的,不僅需要一份可用的數(shù)據(jù)復制,還要有包括網絡、主機、應用、甚至IP等資源,以及各資源之間的良好協(xié)調。主要的技術包括負載均衡、集群技術。數(shù)據(jù)容災是應用容災的技術,應用容災是數(shù)據(jù)容災的目標。
在選擇容災系統(tǒng)的構造時,還要建立多層次的廣域網絡故障切換機制。本地的高可用系統(tǒng)指在多個服務器運行一個或多種應用的情況下,應確保任意服務器出現(xiàn)任何故障時,其運行的應用不能中斷,應用程序和系統(tǒng)應能迅速切換到其它服務器上運行,即本地系統(tǒng)集群和熱備份。
在遠程的容災系統(tǒng)中,要實現(xiàn)完整的應用容災,既要包含本地系統(tǒng)的安全機制、遠程的數(shù)據(jù)復制機制,還應具有廣域網范圍的遠程故障切換能力和故障診斷能力。也就是說,一旦故障發(fā)生,系統(tǒng)要有強大的故障診斷和切換策略制訂機制,確??焖俚姆磻脱杆俚臉I(yè)務接管。實際上,廣域網范圍的高可用能力與本地系統(tǒng)的高可用能力應形成一個整體,實現(xiàn)多級的故障切換和恢復機制,確保系統(tǒng)在各個范圍的可靠和安全。
集群系統(tǒng)是在冗余的通??捎眯韵到y(tǒng)基礎之上,運行高可靠性軟件而構成。高可靠性軟件用于自動檢測系統(tǒng)的運行狀態(tài),在一臺服務器出現(xiàn)故障的情況下,自動地把設定的服務轉到另一臺服務器上。當運行服務器提供的服務不可用時,備份服務器自動接替運行服務器的工作而不用重新啟動系統(tǒng),而當運行服務器恢復正常后,按照使用者的設定以自動或手動方式將服務切換到運行服務上運行。備份服務器除了在運行服務器出現(xiàn)故障時接替其服務,還可以執(zhí)行其他應用程序。因此,一臺性能配備充分的主機可同時作為某一服務的運行服務器和另一服務的備份服務器使用,即兩臺服務器互為備份。一臺主機可以運行多個服務,也可作為多個服務的備份服務器。
數(shù)據(jù)容災系統(tǒng),對于IT而言,就是為計算機信息系統(tǒng)提供的一個能應付各種災難的環(huán)境。當計算機系統(tǒng)在遭受如火災、水災、地震、戰(zhàn)爭等不可抗拒的自然災難以及計算機犯罪、計算機病毒、掉電、網絡/通信失敗、硬件/軟件錯誤和人為操作錯誤等人為災難時,容災系統(tǒng)將保證用戶數(shù)據(jù)的安全性(數(shù)據(jù)容災),甚至,一個更加完善的容災系統(tǒng),還能提供不間斷的應用服務(應用容災)。可以說,容災系統(tǒng)是數(shù)據(jù)存儲備份的最高層次。
衡量容災備份的兩個技術指標
RPO(Recovery Point ObjecTIve):即數(shù)據(jù)恢復點目標,主要指的是業(yè)務系統(tǒng)所能容忍的數(shù)據(jù)丟失量。
RTO(Recovery TIme ObjecTIve):即恢復時間目標,主要指的是所能容忍的業(yè)務停止服務的最長時間,也就是從災難發(fā)生到業(yè)務系統(tǒng)恢復服務功能所需要的最短時間周期。
RPO針對的是數(shù)據(jù)丟失,而RTO針對的是服務丟失,二者沒有必然的關聯(lián)性。RTO和RPO的確定必須在進行風險分析和業(yè)務影響分析后根據(jù)不同的業(yè)務需求確定。對于不同企業(yè)的同一種業(yè)務,RTO和RPO的需求也會有所不同。