淺析計算機(jī)軟件可靠性設(shè)計
摘要:本文介紹了軟件可靠性設(shè)計的基本概念,軟件故障產(chǎn)生的機(jī)理,軟件質(zhì)量的可靠性參數(shù),并且著重介紹了軟件可靠性設(shè)計方法。
關(guān)鍵詞:計算機(jī)軟件;可靠性設(shè)計;機(jī)理;參數(shù)
隨著科學(xué)技術(shù)的不斷進(jìn)步,軟件可靠性成為我們關(guān)注的一個問題,軟件系統(tǒng)規(guī)模越做越大越復(fù)雜,其可靠性越來越難保證。應(yīng)用本身對系統(tǒng)運(yùn)行的可靠性要求越來越高,在一些關(guān)鍵的應(yīng)用領(lǐng)域,如航空、航天等,其可靠性要求尤為重要,在銀行等服務(wù)性行業(yè),其軟件系統(tǒng)的可靠性也直接關(guān)系到自身的聲譽(yù)和生存發(fā)展競爭能力。特別是軟件可靠性比硬件可靠性更難保證,會嚴(yán)重影響整個系統(tǒng)的可靠性。在許多項目開發(fā)過程中,對可靠性沒有提出明確的要求,開發(fā)商(部門)也不在可靠性方面花更多的精力,往往只注重速度、結(jié)果的正確性和用戶界面的友好性等,而忽略了可靠性。在投入使用后才發(fā)現(xiàn)大量可靠性問題,增加了維護(hù)困難和工作量,嚴(yán)重時只有束之高閣,無法投入實際使用。本文僅就軟件可靠性工程在軟件開發(fā)過程中的應(yīng)用談?wù)勛约旱恼J(rèn)識。
1.軟件可靠性設(shè)計的基本概念
1.1 軟件及軟件故障。軟件(也稱程序)本質(zhì)上是一種把一組離散輸入變成一組離散輸出的工具,它由一組編碼語句組成,這些語句的功能基本上是以下功能之一:(1)計算一個表達(dá)式并將其結(jié)果存儲在單元里;(2)決定下一步要執(zhí)行哪個語句;(3)進(jìn)行輸入/輸出控制。
軟件產(chǎn)品與硬件產(chǎn)品一樣。軟件的可靠性工作也是貫穿于軟件的整個壽命周期的。軟件的壽命周期,是指從軟件任務(wù)的提出一直到它完成使命,因陳舊而被廢棄為止的整個時間歷程,這個壽命周期包括了提出要求/規(guī)格說明、設(shè)計、實現(xiàn)、檢驗、維護(hù)等五個階段,前四個階段為開發(fā)期,維護(hù)階段為使用期。
1.2 軟件可靠性。關(guān)于軟件可靠性的定義是什么。較多的人認(rèn)為軟件的可靠性與“概率統(tǒng)計的可靠性”的概念密切相關(guān),軟件的可靠性是軟件在規(guī)定的條件下、規(guī)定的時間周期內(nèi)執(zhí)行所要求功能的能力。軟件的可靠度是軟件在規(guī)定的條件下、規(guī)定的時間內(nèi)不引起系統(tǒng)故障的概率,該概率是系統(tǒng)輸入與系統(tǒng)使用的函數(shù)。
2.軟件質(zhì)量的可靠性參數(shù)
2.1 系統(tǒng)平均不工作間隔時間(MTBSD或MTBD)。設(shè)d為軟件正常工作總時間,d為系統(tǒng)由于軟件故障而停止工作的次數(shù),則定義TBSD=Tv/(d+1)。式中,TBSD—MTBSD;Tv—軟件正常工作總時間(h);d—系統(tǒng)由于軟件故障而停止工作的次數(shù)。MTBSD反映了系統(tǒng)的穩(wěn)定性。
2.2 系統(tǒng)不工作次數(shù)(一定時期內(nèi))。由于軟件故障而停止工作,必須由操作者介入再啟動才能繼續(xù)工作的次數(shù)。
2.3 可用度A。設(shè)Tv為軟件正常工作總時間,TD為由于軟件故障使系統(tǒng)不工作的時間,則定義A=TV/(TV+TD)。它反映了系統(tǒng)的穩(wěn)定性,亦可表達(dá)為A=TBD/(TBD+TDT)。式中,TBD—MTBD(h),TDT—平均不工作時間,以下簡稱MDT(h)。對一般生產(chǎn)用計算機(jī)系統(tǒng),要求A≥99.8%;銀行計算機(jī)系統(tǒng),要求A>99.9%。
2.4 MTTR。它反映了出現(xiàn)軟件缺陷后采取對策的效率。在一定程度上也反映了軟件企業(yè)對社會服務(wù)的責(zé)任心。對于在線系統(tǒng)而言,MTT只要求不超過2天,變差系數(shù)應(yīng)小于1。一般的MTTR也應(yīng)小于7天,變差系數(shù)小于1。
2.5 平均不工作時間(MDT)。即由于軟件故障,系統(tǒng)不工作的均值。對在線系統(tǒng)而言。MDT要求不超過10min一般的MDT<30min。
2.6 初期故障。一般以軟件交付使用后的三個月內(nèi)為初期故障期。初期故障率的大小取決于軟件設(shè)計水平、檢查項日數(shù)、軟件規(guī)模、軟件調(diào)試徹底與否等因素。
2.7 偶然故障率。一般以軟件交付給使用方四個月后為偶然故障期,偶然故障率以每1000h的故障數(shù)為單位,它反映了軟件處于穩(wěn)定狀態(tài)下的質(zhì)量。一般最少要求偶然故障率不超過1,即每千小時不到1個故障,亦即MTBF超過1000h。
2.8 使用方誤用率。使用方不按照軟件規(guī)范及說明等使用造成的錯誤叫使用方誤用。在總使用次數(shù)中,使用方誤用次數(shù)占的百分率叫使用方誤用率。造成使用方誤用的原因之一是使用方對說明理解不深,操作不熟練,但也有可能是說明沒有講得很清楚而引起誤解。其他的原因還有軟件系統(tǒng)的可操作性還應(yīng)改進(jìn)、對使用方的使用培訓(xùn)還要更深入等等。
2.9 用戶提出補(bǔ)充要求數(shù)。這反映軟件未能充分滿足用戶的需要,有時要求是特定用戶的特定要求,生產(chǎn)方為了更好地為社會服務(wù),應(yīng)該盡力滿足他們的要求。
2.10 處理能力。處理能力有各種指標(biāo)。例如可用每小時平均處理多少文件、每項工作的反應(yīng)時間多少秒等來表示,根據(jù)需要而定。在評價軟件及系統(tǒng)的經(jīng)濟(jì)效益時需用這項指標(biāo)。
3.軟件可靠性設(shè)計方法
從軟件可靠性的概念可知,軟件的缺陷可以導(dǎo)致錯誤并造成系統(tǒng)的故障,因此,缺陷是一切錯誤的根源。為了提高軟件的可靠性,最關(guān)鍵的還是力求減少軟件中的缺陷。軟件的缺陷來自軟件壽命周期的各個階段,因此應(yīng)想方設(shè)法在壽命周期的各個階段減少缺陷。缺陷在一定的環(huán)境條件下暴露,導(dǎo)致系統(tǒng)運(yùn)行中出現(xiàn)錯誤。軟件的錯誤概括地說可能由規(guī)范(要求/規(guī)格說明)、軟件系統(tǒng)設(shè)計及編碼過程產(chǎn)生。
3.1 要求/規(guī)格說明。只要在規(guī)格說明與用戶要求說明之間存在誤差,就會產(chǎn)生規(guī)范錯誤。
規(guī)范它不僅規(guī)定程序的要求,還規(guī)定所用的結(jié)構(gòu)、研制及試驗中需要的程序試驗要求和文件,以及程序語言、輸入和輸出的基本要求。通過對這些方面作出適當(dāng)?shù)囊?guī)定,就可以建立使產(chǎn)生錯誤的可能性最小、并保證錯誤能被發(fā)現(xiàn)和改正的程序生成的結(jié)構(gòu)。
這種說明書是軟件設(shè)計人員和用戶間相互了解的基礎(chǔ),是軟件設(shè)計人員進(jìn)行程序設(shè)計、調(diào)試的基礎(chǔ)和評價軟件的依據(jù)。要求/規(guī)格說明書應(yīng)具有以下性質(zhì):
(1)可測性:生產(chǎn)出來的軟件產(chǎn)品應(yīng)能根據(jù)要求/規(guī)格說明書的內(nèi)容進(jìn)行測試。(2)完整性:對軟件要求的描述要完整無缺。(3)明確性:對軟件的要求必須是明確的,不存在語義上的支義性。(4)一致性:要求說明書中的概念與規(guī)范化。(5)彈性:當(dāng)軟件的工作環(huán)境發(fā)生變化時,其功能說明也相應(yīng)地擴(kuò)充或壓縮。
3.2 軟件設(shè)計。軟件系統(tǒng)是根據(jù)要求/規(guī)格說明(規(guī)范)設(shè)計的,通過設(shè)計將確定程序結(jié)構(gòu)、測試點及限制等。為設(shè)計出可靠的軟件,需要在考慮諸如機(jī)型、資源、語言、模型及數(shù)據(jù)結(jié)構(gòu)等實際問題的基礎(chǔ)上,采取一些有效的設(shè)計方法。
3.2.1 “自頂向下設(shè)計”法。這種設(shè)計方法是處理分級問題最有效的設(shè)計技術(shù)。它是以一個系統(tǒng)功能的最抽象描述開始作為最高層次;從它出發(fā),設(shè)計一系列較詳細(xì)的子系統(tǒng)。由這些子系統(tǒng)來完成員高層次的功能;再以每個子系統(tǒng)為基礎(chǔ),設(shè)計出一系列更詳細(xì)的子系統(tǒng),等等。如此逐次向下作功能分解,直到最低層次的子系統(tǒng)能夠比較方便用計算機(jī)程序設(shè)計語言來實現(xiàn)為止。自頂向下設(shè)計方法的價值在于,它在設(shè)計的同時,指出了復(fù)雜性不同的處理層次,而且各種設(shè)計要素之間的關(guān)系是比較清楚的。通過這樣一種結(jié)構(gòu)化構(gòu)造途徑,有可能在早期就洞察出設(shè)計問題,從而避免了不必要地先去考慮較低層次的細(xì)節(jié)問題。
3.2.2 結(jié)構(gòu)化程序設(shè)計。軟件結(jié)構(gòu)對軟件的可靠性具有重要的意義。結(jié)構(gòu)良好的程序易于編寫、檢查,便于查錯定位、修改和維護(hù)。結(jié)構(gòu)化程序設(shè)計(也稱為模塊化程序設(shè)計)把程序要求分成若干獨立的、更小的程序要求或模塊化的功能要求,分別提出各自的要求/規(guī)格說明,并注明是如何與程序中的其他部分接口,還必須指出所有的輸入與輸出,以及測試要求。對每一個更小的程序和模塊,可分別編程和測試,使得模塊間高度分離。
3.2.3 容錯設(shè)計。對軟件錯誤所引起的后果特別嚴(yán)重的情況,如飛機(jī)的飛行控制系統(tǒng)、空中交通管制系統(tǒng)、核反應(yīng)堆安全系統(tǒng)等,需采用容錯軟件。容錯設(shè)計的途徑有:(1)加強(qiáng)軟件的健壯性;使程序設(shè)計得能夠緩解錯誤的影響,不致造成諸如死鎖或崩潰這樣的嚴(yán)重后果,并能指出錯誤源。(2)采用N(>2)版本編程法:即盡可能用不同的算法與編程語言,經(jīng)不同的班組編制,以提高各軟件版本的獨立性。這N個軟件版本同時在N臺計算機(jī)上運(yùn)行,各計算機(jī)間能進(jìn)行高效通信,并作出快速比較,當(dāng)結(jié)果不一致時,按多數(shù)表決或預(yù)定的策略選擇輸出。(3)恢復(fù)塊法:給需要作容錯處理的塊(基本塊)提供備份塊,并附加錯誤檢測和恢復(fù)措施。
3.3 軟件編碼。在軟件結(jié)構(gòu)設(shè)計的基礎(chǔ)上就可以進(jìn)行編碼,編碼產(chǎn)生的缺陷是軟件錯誤的主要來源。一般的編碼錯誤是:鍵入錯代碼;數(shù)值錯誤(尤其是單位不統(tǒng)一時易出這類錯誤);丟失代碼(如括號);用了被零除這樣不定值的表達(dá)式等。為了減少編碼錯誤,實現(xiàn)設(shè)計與生產(chǎn)分離,首先由高水平的軟件工程師完成結(jié)構(gòu)設(shè)計,再由程序設(shè)計員完成程序的編制是合理的、必要的,并在編碼過程中盡早地查出缺陷予以改正。
4.結(jié)束語
軟件可靠性設(shè)計工程是一門雖然得到普遍承認(rèn),但還處于不成熟的正在發(fā)展確立階段的新工程學(xué)科,任然存在很多問題,需要去探索、研究和解決。本文介紹只在軟件可靠性設(shè)計方面拋磚引玉,提供借鑒。
參考文獻(xiàn)
[1]張磊,周繼鋒,張強(qiáng).系統(tǒng)軟件可靠性驗證測試方法研究[J].計算機(jī)與數(shù)字工程,2010,06.
[2]曾福萍,靳慧亮,陸民燕.軟件缺陷模式的研究[J].計算機(jī)科學(xué),2011,02.