什么是容災(zāi)系統(tǒng)及系統(tǒng)分類(lèi)
掃描二維碼
隨時(shí)隨地手機(jī)看文章
容災(zāi)系統(tǒng)是指在相隔較遠(yuǎn)的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進(jìn)行健康狀態(tài)監(jiān)視和功能切換,當(dāng)一處系統(tǒng)因意外(如火災(zāi)、地震等)停止工作時(shí),整個(gè)應(yīng)用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。容災(zāi)技術(shù)是系統(tǒng)的高可用性技術(shù)的一個(gè)組成部分,容災(zāi)系統(tǒng)更加強(qiáng)調(diào)處理外界環(huán)境對(duì)系統(tǒng)的影響,特別是災(zāi)難性事件對(duì)整個(gè)IT節(jié)點(diǎn)的影響,提供節(jié)點(diǎn)級(jí)別的系統(tǒng)恢復(fù)功能。
容災(zāi)分類(lèi)
從其對(duì)系統(tǒng)的保護(hù)程度來(lái)分,可以將容災(zāi)系統(tǒng)分為:數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)
描述如下:
數(shù)據(jù)容災(zāi)就是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)實(shí)時(shí)復(fù)制。
應(yīng)用容災(zāi)是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)(可以是互為備份),在災(zāi)難情況下,遠(yuǎn)程系統(tǒng)迅速接管業(yè)務(wù)運(yùn)行。數(shù)據(jù)容災(zāi)是抗御災(zāi)難的保障,而應(yīng)用容災(zāi)則是容災(zāi)系統(tǒng)建設(shè)的目標(biāo)。
數(shù)據(jù)容災(zāi)
所謂數(shù)據(jù)容災(zāi),就是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)可用復(fù)制。在本地?cái)?shù)據(jù)及整個(gè)應(yīng)用系統(tǒng)出現(xiàn)災(zāi)難時(shí),系統(tǒng)至少在異地保存有一份可用的關(guān)鍵業(yè)務(wù)的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實(shí)時(shí)復(fù)制,也可以比本地?cái)?shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復(fù)制技術(shù)。
數(shù)據(jù)容災(zāi)技術(shù),又稱為異地?cái)?shù)據(jù)復(fù)制技術(shù),按照其實(shí)現(xiàn)的技術(shù)方式來(lái)說(shuō),主要可以分為同步傳輸方式和異步異步傳輸方式(各廠商在技術(shù)用語(yǔ)上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占I/O比重比較大時(shí),相對(duì)同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災(zāi)的距離,數(shù)據(jù)容災(zāi)又可以分成遠(yuǎn)程數(shù)據(jù)容災(zāi)和近程數(shù)據(jù)容災(zāi)方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對(duì)數(shù)據(jù)容災(zāi)展開(kāi)討論,其中也會(huì)涉及到遠(yuǎn)程容災(zāi)和近程容災(zāi)的概念,并作相應(yīng)的分析。
應(yīng)用容災(zāi)的方法
所謂應(yīng)用容災(zāi),是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)(可以是互為備份)。建立這樣一個(gè)系統(tǒng)是相對(duì)比較復(fù)雜的,不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。主要的技術(shù)包括負(fù)載均衡、集群技術(shù)。數(shù)據(jù)容災(zāi)是應(yīng)用容災(zāi)的技術(shù),應(yīng)用容災(zāi)是數(shù)據(jù)容災(zāi)的目標(biāo)。
在選擇容災(zāi)系統(tǒng)的構(gòu)造時(shí),還要建立多層次的廣域網(wǎng)絡(luò)故障切換機(jī)制。本地的高可用系統(tǒng)指在多個(gè)服務(wù)器運(yùn)行一個(gè)或多種應(yīng)用的情況下,應(yīng)確保任意服務(wù)器出現(xiàn)任何故障時(shí),其運(yùn)行的應(yīng)用不能中斷,應(yīng)用程序和系統(tǒng)應(yīng)能迅速切換到其它服務(wù)器上運(yùn)行,即本地系統(tǒng)集群和熱備份。
在遠(yuǎn)程的容災(zāi)系統(tǒng)中,要實(shí)現(xiàn)完整的應(yīng)用容災(zāi),既要包含本地系統(tǒng)的安全機(jī)制、遠(yuǎn)程的數(shù)據(jù)復(fù)制機(jī)制,還應(yīng)具有廣域網(wǎng)范圍的遠(yuǎn)程故障切換能力和故障診斷能力。也就是說(shuō),一旦故障發(fā)生,系統(tǒng)要有強(qiáng)大的故障診斷和切換策略制訂機(jī)制,確保快速的反應(yīng)和迅速的業(yè)務(wù)接管。實(shí)際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應(yīng)形成一個(gè)整體,實(shí)現(xiàn)多級(jí)的故障切換和恢復(fù)機(jī)制,確保系統(tǒng)在各個(gè)范圍的可靠和安全。
集群系統(tǒng)是在冗余的通??捎眯韵到y(tǒng)基礎(chǔ)之上,運(yùn)行高可靠性軟件而構(gòu)成。高可靠性軟件用于自動(dòng)檢測(cè)系統(tǒng)的運(yùn)行狀態(tài),在一臺(tái)服務(wù)器出現(xiàn)故障的情況下,自動(dòng)地把設(shè)定的服務(wù)轉(zhuǎn)到另一臺(tái)服務(wù)器上。當(dāng)運(yùn)行服務(wù)器提供的服務(wù)不可用時(shí),備份服務(wù)器自動(dòng)接替運(yùn)行服務(wù)器的工作而不用重新啟動(dòng)系統(tǒng),而當(dāng)運(yùn)行服務(wù)器恢復(fù)正常后,按照使用者的設(shè)定以自動(dòng)或手動(dòng)方式將服務(wù)切換到運(yùn)行服務(wù)上運(yùn)行。備份服務(wù)器除了在運(yùn)行服務(wù)器出現(xiàn)故障時(shí)接替其服務(wù),還可以執(zhí)行其他應(yīng)用程序。因此,一臺(tái)性能配備充分的主機(jī)可同時(shí)作為某一服務(wù)的運(yùn)行服務(wù)器和另一服務(wù)的備份服務(wù)器使用,即兩臺(tái)服務(wù)器互為備份。一臺(tái)主機(jī)可以運(yùn)行多個(gè)服務(wù),也可作為多個(gè)服務(wù)的備份服務(wù)器。
數(shù)據(jù)容災(zāi)系統(tǒng),對(duì)于IT而言,就是為計(jì)算機(jī)信息系統(tǒng)提供的一個(gè)能應(yīng)付各種災(zāi)難的環(huán)境。當(dāng)計(jì)算機(jī)系統(tǒng)在遭受如火災(zāi)、水災(zāi)、地震、戰(zhàn)爭(zhēng)等不可抗拒的自然災(zāi)難以及計(jì)算機(jī)犯罪、計(jì)算機(jī)病毒、掉電、網(wǎng)絡(luò)/通信失敗、硬件/軟件錯(cuò)誤和人為操作錯(cuò)誤等人為災(zāi)難時(shí),容災(zāi)系統(tǒng)將保證用戶數(shù)據(jù)的安全性(數(shù)據(jù)容災(zāi)),甚至,一個(gè)更加完善的容災(zāi)系統(tǒng),還能提供不間斷的應(yīng)用服務(wù)(應(yīng)用容災(zāi))??梢哉f(shuō),容災(zāi)系統(tǒng)是數(shù)據(jù)存儲(chǔ)備份的最高層次。
衡量容災(zāi)備份的兩個(gè)技術(shù)指標(biāo)
RPO(Recovery Point ObjecTIve):即數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo),主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。
RTO(Recovery TIme ObjecTIve):即恢復(fù)時(shí)間目標(biāo),主要指的是所能容忍的業(yè)務(wù)停止服務(wù)的最長(zhǎng)時(shí)間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間周期。
RPO針對(duì)的是數(shù)據(jù)丟失,而RTO針對(duì)的是服務(wù)丟失,二者沒(méi)有必然的關(guān)聯(lián)性。RTO和RPO的確定必須在進(jìn)行風(fēng)險(xiǎn)分析和業(yè)務(wù)影響分析后根據(jù)不同的業(yè)務(wù)需求確定。對(duì)于不同企業(yè)的同一種業(yè)務(wù),RTO和RPO的需求也會(huì)有所不同。