細(xì)分MTTR對(duì)模塊化UPS系統(tǒng)可用性的影響
1.前言
模塊化可以簡(jiǎn)化設(shè)計(jì),縮短新產(chǎn)品開(kāi)發(fā)周期,提高生產(chǎn)效率,提高產(chǎn)品質(zhì)量、可靠性和維修性,具有良好的效費(fèi)比,是科技成果產(chǎn)業(yè)化的有效途徑。
通信用直流電源系統(tǒng)的成功應(yīng)用為模塊化UPS樹(shù)立了榜樣。DSP芯片和控制技術(shù)的發(fā)展為模塊化UPS提供器件基礎(chǔ)和技術(shù)保障。模塊化UPS系統(tǒng)關(guān)鍵之一是各模塊的故障可隔離性[1]。
1.1 模塊化UPS裝卸運(yùn)輸安裝的便利性
集裝箱,一個(gè)美國(guó)貨車司機(jī)1946年的發(fā)明,引起運(yùn)輸方式的革命,使全球貨物運(yùn)輸業(yè)發(fā)生了革命性的變革。
傳統(tǒng)集中式UPS較重又不能被拆分,它帶來(lái)如下不便:立式的包裝限制了運(yùn)輸車輛的選擇;裝卸、就位需專門的大型吊裝車;機(jī)房門、過(guò)道、電梯載重、樓層承重時(shí)有受限。因此,2臺(tái)傳統(tǒng)集中塔式UPS構(gòu)成“1+1”系統(tǒng)或者多臺(tái)構(gòu)成“N+1”系統(tǒng)都不能被稱為模塊化UPS系統(tǒng)。
而UPS模塊化,則可化整為零:模塊可以分開(kāi)包裝,機(jī)架可以臥式包裝及運(yùn)輸。對(duì)于機(jī)架,(2~4)人即可搬運(yùn),對(duì)于模塊,(1~2)人即可輕松搬運(yùn)和安裝。
能帶來(lái)便利的UPS系統(tǒng)才能叫作模塊化UPS系統(tǒng)。
1.2 模塊化UPS的可維護(hù)性
集中式UPS一般需要資深工程師攜帶大量的備品備件現(xiàn)場(chǎng)維修,需要時(shí)間長(zhǎng),費(fèi)用不菲。
對(duì)于模塊化UPS系統(tǒng),UPS模塊本身具有熱拔插功能,可以在不中斷負(fù)載供電以及確保人身安全的前提下更換故障模塊。用戶備用模塊或即使空運(yùn)模塊到故障現(xiàn)場(chǎng),將使維護(hù)變得方便和低成本。
模塊返回工廠維修與現(xiàn)場(chǎng)維修相比,不但維修成本更低,而且維修質(zhì)量更加可以得到保障。
模塊化對(duì)于人類最突出的貢獻(xiàn)莫過(guò)于減少人為錯(cuò)誤。研究表明,有50%-60%的數(shù)據(jù)中心停機(jī)是由人為錯(cuò)誤引起的,而且減少人為錯(cuò)誤體現(xiàn)了系統(tǒng)的一個(gè)最大的收益--提高可用性。迄今為止,在提高可用性的所有途徑中,減少人為錯(cuò)誤是最行之有效的手段。
2 模塊化UPS的可用度與MTTR概念
對(duì)于一次性使用的設(shè)備,如不可回收的人造地球衛(wèi)星上的通訊設(shè)備,僅關(guān)心其可靠性即可。但是,對(duì)于如UPS等大多數(shù)可修復(fù)設(shè)備,只用可靠性指標(biāo)描述其性能便不全面。用戶不但要考慮故障發(fā)生的概率,而且還要考慮修復(fù)時(shí)間。
可維護(hù)性(Maintainability),其含義是在規(guī)定的時(shí)間內(nèi)完成主動(dòng)修復(fù)的概率。
可維護(hù)性用平均維修時(shí)間MTTR(mean time to repair)來(lái)表示。它是設(shè)備從發(fā)生故障瞬間開(kāi)始不能完成規(guī)定功能到通過(guò)維修而重新恢復(fù)規(guī)定功能所需的平均時(shí)間。
修復(fù)率μ是MTTR的倒數(shù): [!--empirenews.page--]
可用度(可用性)是一個(gè)可維護(hù)性指標(biāo),為系統(tǒng)在使用過(guò)程中,可以正常使用的時(shí)間與總時(shí)間之比??捎枚華與平均無(wú)故障時(shí)間MTBF(Mean time between failure)和MTTR的關(guān)系是:
可用度不僅與MTBF有關(guān),而且與MTTR有關(guān)。因復(fù)雜系統(tǒng)的功能多、元器件多則MTBF降低。在MTBF不變的前提下,減小MTTR能有效提高系統(tǒng)的可用性A。
3 MTTR時(shí)間細(xì)分
MTTR是指故障發(fā)生到恢復(fù)功能的時(shí)間t,它由故障發(fā)生到故障自動(dòng)檢測(cè)時(shí)間t1、故障被檢測(cè)出到維修工接到通知的時(shí)間t2、后勤保障時(shí)間t3、故障維修時(shí)間t4、恢復(fù)時(shí)間t5等多個(gè)時(shí)間段組成,即 t= t1+ t2+ t3+ t4+ t5,見(jiàn)圖1。
圖1 MTTR的時(shí)間細(xì)分
3.1 故障發(fā)生到系統(tǒng)自動(dòng)檢測(cè)出故障的時(shí)間t1
要求UPS具有完善的自我診斷功能,定位發(fā)生故障的位置和類型,限制故障擴(kuò)大并給出故障信號(hào)。對(duì)于模塊化UPS要求故障模塊能自動(dòng)保護(hù)退出系統(tǒng),不能影響系統(tǒng)其它部分繼續(xù)正常工作。一般來(lái)說(shuō),t1時(shí)間是ms~min數(shù)量級(jí)。
3.2 故障被檢測(cè)出到人們知道時(shí)間t2
檢測(cè)出的故障通過(guò)合適方式,如手機(jī)短信實(shí)時(shí)通知維護(hù)工。t2時(shí)間一般是s ~min數(shù)量級(jí)。
3.3 后勤保障時(shí)間t3
后勤保障時(shí)間是指人(維修工程師)和物(備品備件)從獲知維修通知到抵達(dá)現(xiàn)場(chǎng)開(kāi)始維修時(shí)間。t3時(shí)間是hours~days數(shù)量級(jí)。
人:最快是用戶的維護(hù)工程師自己可以解決,其次是廠家當(dāng)?shù)鼐S修工程師以及廠家工程師的快速響應(yīng)能力(受廠家服務(wù)響應(yīng)能力和交通工具影響)。
物:用戶現(xiàn)場(chǎng)是否準(zhǔn)備有足夠可以替換的備品備件,如設(shè)備現(xiàn)場(chǎng)及廠家當(dāng)?shù)剞k事處沒(méi)有備品備件,則需要廠家派人攜帶或者委托第三方運(yùn)送備品備件到用戶設(shè)備現(xiàn)場(chǎng)。對(duì)于模塊化UPS,因不同容量的系統(tǒng)由相同的模塊組成,準(zhǔn)備一種模塊即可。而對(duì)于傳統(tǒng)集中式UPS,可能的故障部件無(wú)法定位和預(yù)計(jì),為了提高修復(fù)概率,往往需要準(zhǔn)備較多種類的備品備件。
案例:某國(guó)外品牌傳統(tǒng)集中式UPS出現(xiàn)故障,時(shí)值年底,正值企業(yè)年底沖刺滿負(fù)荷生產(chǎn)。因天氣寒冷,電網(wǎng)負(fù)荷大,電網(wǎng)頻繁停電并不可預(yù)測(cè),而一旦停電,則流水線上芯片將全部報(bào)廢,用戶非常焦急。而當(dāng)時(shí)UPS廠家在亞洲只有泰國(guó)曼谷辦事處,并且需要派資深工程師攜帶大量的備品備件才能來(lái)華現(xiàn)場(chǎng)維修。簽證需要時(shí)間,老外資深工程師簽證、差旅、維修等費(fèi)用也不菲。用戶受不了漫長(zhǎng)的等待造成停產(chǎn)帶來(lái)的巨大損失和昂貴的維修報(bào)價(jià),可后來(lái)檢查結(jié)果非常意外:實(shí)際故障發(fā)生部位與廠家所謂資深維修工程師準(zhǔn)備空運(yùn)來(lái)的備件完全不同。[!--empirenews.page--]
如果是模塊化UPS,用戶備用一個(gè)模塊或即使空運(yùn)一個(gè)模塊也不需要很長(zhǎng)時(shí)間。
即使是模塊化UPS,需要多大容量(對(duì)應(yīng)重量和尺寸)的模塊比較合適,這就需要從物流可獲得性以及現(xiàn)場(chǎng)更換便利性等方面加以考慮。
3.3.1國(guó)家標(biāo)準(zhǔn)GB 12330-90體力搬運(yùn)重量限值
表1 中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)《GB 12330-90體力搬運(yùn)重量限值》(單次重量,單位kg)
該標(biāo)準(zhǔn)體現(xiàn)我國(guó)對(duì)搬運(yùn)操作工的勞動(dòng)保護(hù),同時(shí)也回答了單個(gè)物體一般多重才是適合搬運(yùn)的。
3.3.2 航空公司對(duì)行李重量尺寸限制
表2 航空公司對(duì)行李重量尺寸限制
航空公司對(duì)行李重量限值的規(guī)定,受各國(guó)的勞工法以及不同型號(hào)客機(jī)等影響,不同的航空公司,規(guī)定稍有不同。當(dāng)超過(guò)限值時(shí),需要采用貨運(yùn)方式替代行李托運(yùn),而貨運(yùn)不能保證隨同旅客航班同時(shí)抵達(dá),一般晚到2至3天。以上表明:模塊的重量和尺寸將直接影響到維修現(xiàn)場(chǎng)獲得備用模塊的時(shí)間。從表2看出,模塊的重量小于30kg和尺寸小于158cm最佳。
3.3.3 國(guó)際上對(duì)人體搬運(yùn)重物限制
圖2是美國(guó)勞工法對(duì)不同重量物體需要不同人數(shù)或者需要采用機(jī)械設(shè)備的要求。圖中重量限值要求間接對(duì)UPS單模塊的容量和重量作了規(guī)定。重量限值要求同時(shí)表明:提高UPS模塊的功率密度,降低其重量尺寸是以后永恒的發(fā)展方向。
圖2 美國(guó)勞工法對(duì)搬運(yùn)重物規(guī)定
早年通信用高頻開(kāi)關(guān)電源剛面市時(shí), 200A/48Vdc的整流器模塊還是主流,盡管其重量尺寸比相控小很多,但現(xiàn)在200A的模塊是非主流產(chǎn)品,主流產(chǎn)品是100A、50A、30A、10A等整流器模塊,應(yīng)該說(shuō)重量尺寸是一個(gè)重要原因。隨著電源變換效率的提高,200A整流器的尺寸和重量變小時(shí),200A模塊也許將進(jìn)入主流。
對(duì)于功率更大使用場(chǎng)景則通過(guò)增加并聯(lián)模塊數(shù)量或者采用多套分散供電方式實(shí)現(xiàn)。
3.4 故障維修時(shí)間t4
從開(kāi)始動(dòng)手維修到確認(rèn)修好的時(shí)間。對(duì)于模塊化UPS,普通工程師現(xiàn)場(chǎng)能直接更換故障模塊。更換時(shí)間30產(chǎn)品。對(duì)于傳統(tǒng)集中式UPS,需要資深工程師攜帶多種儀器儀表以及可能需要的備件到故障現(xiàn)場(chǎng)進(jìn)行檢測(cè)。維修時(shí)間t4是min~days(天)數(shù)量級(jí)。[!--empirenews.page--]
3.5 恢復(fù)時(shí)間t5
更換新的模塊或者部件從通電到該模塊投入到系統(tǒng)工作正常的時(shí)間。恢復(fù)過(guò)程中需要系統(tǒng)具有完善自我檢測(cè)和保護(hù)設(shè)計(jì),如更換的模塊或者修復(fù)的部件通不過(guò)系統(tǒng)檢測(cè),則系統(tǒng)拒絕加入,不能影響系統(tǒng)其它部分繼續(xù)正常工作。t5時(shí)間是ms~min數(shù)量級(jí)。
3.6 MTTR估值
據(jù)上分析看出,相對(duì)于后勤保障時(shí)間t3和故障維修時(shí)間t4來(lái)說(shuō),t1、t2、t5可以忽略不計(jì)。MTTR可以假設(shè)如下四個(gè)數(shù)值:
⑴ 假設(shè)用戶自己在設(shè)備故障現(xiàn)場(chǎng),用戶備有可以供更換的備用模塊,用戶一發(fā)現(xiàn)問(wèn)題就立即自己更換,則MTTR≦0.5h。這是一種最理想最短的時(shí)間。
⑵ 用戶維護(hù)人員不在現(xiàn)場(chǎng)但在設(shè)備所在城市,模塊一旦發(fā)生故障即可被實(shí)時(shí)通知(如手機(jī)短信),現(xiàn)場(chǎng)有可供更換用備用模塊,維護(hù)人員5h之內(nèi)趕到現(xiàn)場(chǎng)并完成更換。則MTTR=5h。
⑶ 現(xiàn)場(chǎng)無(wú)備用模塊,或即使有備用模塊但用戶自己不能更換,需要廠家工程師來(lái)更換。假設(shè)廠家承諾解決問(wèn)題時(shí)間為48h,更換模塊時(shí)間0.5h,MTTR=48+0.5≈50(h)。
⑷ 對(duì)于傳統(tǒng)集中式UPS,需廠家資深工程師,帶齊備品備件和檢測(cè)儀器,設(shè)響應(yīng)時(shí)間48h(備好備件以及乘機(jī)或車趕到設(shè)備現(xiàn)場(chǎng)時(shí)間),現(xiàn)場(chǎng)維修時(shí)間72h,則MTTR=48+72=120(h)。
對(duì)于模塊化UPS,采用第(2)種情況和(3)種情況比較合理,即MTTR=5h或者50h。
4 “N+X”并聯(lián)系統(tǒng)可用度計(jì)算
4.1 計(jì)算公式
“N+X”模塊化UPS系統(tǒng)是一個(gè)表征模型,“N”為負(fù)載容量所需模塊數(shù),“X”為冗余模塊數(shù)。用MTBF、MTTR和可用度A來(lái)表征可用性,其下標(biāo)M表示模塊,S表示系統(tǒng)。
系統(tǒng)MTBFS、MTTRS和可用度A S如公式(1)、公式(2)和公式(3)所示[2]。
4.2 計(jì)算結(jié)果與分析
根據(jù)以上公式可以計(jì)算出系統(tǒng)的可用度As,見(jiàn)表3。模塊的參數(shù)是:MTBFM=10萬(wàn)h,MTTRM分別為0.5/5/50/120h,N+X分別為N=[1,10],X=[0,2])。
表3 N=[1,10]、X=[0,2] 時(shí)系統(tǒng)的可用度對(duì)應(yīng)表
對(duì)以上計(jì)算結(jié)果分析如下:
(1) 當(dāng)MTTRM很小為0.5h,只要1個(gè)冗余模塊,系統(tǒng)就可以達(dá)到很高的可用度。
[!--empirenews.page--]
(2) 在上述MTBFM和MTTRM以及N≤10h,有2個(gè)冗余模塊時(shí),就都可以滿足可用度5個(gè)9的要求。這為我們?cè)O(shè)置休眠模塊數(shù)量多少提供理論依據(jù)。就是說(shuō),正常工作時(shí)有2個(gè)冗余模塊即可,多余的可以讓其休眠,即可以滿足系統(tǒng)可用性需求,也符合節(jié)能原則。
(3) 系統(tǒng)可用度As與MTTRM的關(guān)系:對(duì)于MTBFM=10萬(wàn)h,N+X =8+1系統(tǒng),當(dāng)MTTRM=0.5h/5h/50h/120h時(shí),系統(tǒng)的可用度分別為1個(gè)9、6個(gè)9、5個(gè)9、4個(gè)9。可以看出MTTRM的大小對(duì)系統(tǒng)的可用度影響很大。