硬件可靠性的定義和重要性
?硬件可靠性?是指在給定的操作環(huán)境與條件下,硬件在一段規(guī)定的時(shí)間內(nèi)正確執(zhí)行要求功能的能力?1。硬件可靠性是衡量產(chǎn)品質(zhì)量和系統(tǒng)穩(wěn)定性的關(guān)鍵指標(biāo),直接關(guān)系到用戶體驗(yàn)、業(yè)務(wù)連續(xù)性和系統(tǒng)安全性?。
硬件可靠性的定義和重要性
硬件可靠性定義為產(chǎn)品在規(guī)定的條件和時(shí)間內(nèi)完成規(guī)定功能的能力。這包括了在各種環(huán)境條件下,硬件能夠持續(xù)穩(wěn)定運(yùn)行而不發(fā)生故障的能力?。例如,在金融交易系統(tǒng)中,任何短暫的中斷或故障都可能造成重大經(jīng)濟(jì)損失;在醫(yī)療信息系統(tǒng)中,數(shù)據(jù)的準(zhǔn)確性和系統(tǒng)的連續(xù)性直接關(guān)系到患者的生命安全?。
提高硬件可靠性的方法
提高硬件可靠性的方法主要包括以下幾個(gè)方面:
?使用高質(zhì)量、高可靠性的元器件?:通過使用更高質(zhì)量、更高可靠性的元器件和部件,可以有效提高系統(tǒng)的可靠性。這種方法實(shí)現(xiàn)成本相對(duì)較低?。
?容錯(cuò)設(shè)計(jì)?:通過增加設(shè)計(jì)的復(fù)雜性,增加冗余單元,提高系統(tǒng)的容錯(cuò)能力。例如,采用冗余設(shè)計(jì)、故障轉(zhuǎn)移和容錯(cuò)算法等技術(shù),確保在主組件或路徑故障時(shí),系統(tǒng)仍能正常運(yùn)行?。
?控制功耗和降額?:控制功耗和降額設(shè)計(jì)可以降低器件的溫度,從而減少失效率。功耗越大,溫度越高,可靠性問題就越突出?。
?全面的測(cè)試和嚴(yán)格的驗(yàn)證?:通過全面的測(cè)試和嚴(yán)格的驗(yàn)證,確保每個(gè)模塊和整個(gè)系統(tǒng)的穩(wěn)定性。例如,在軟件開發(fā)過程中,可以采用單元測(cè)試、集成測(cè)試和系統(tǒng)測(cè)試等多層次的測(cè)試方法?。
?提高工藝質(zhì)量?:提高加工質(zhì)量、焊點(diǎn)質(zhì)量、文明生產(chǎn)水平和清潔度等,也有助于提高硬件的可靠性?。
硬件可靠性的統(tǒng)計(jì)指標(biāo)
硬件可靠性的統(tǒng)計(jì)指標(biāo)包括:
?平均故障間隔時(shí)間(MTBF)?:在規(guī)定的環(huán)境和工作條件下,產(chǎn)品或系統(tǒng)在故障之間平均運(yùn)行時(shí)間的期望值?。
?失效率?:λ=1/MTBF,單位為FITs(=10^-9 1/h)?。
?返修率?:λ*t (t是時(shí)間,以小時(shí)h為單位)?。
?年返修率?:λ*8760?3。
通過理解和應(yīng)用這些方法和指標(biāo),可以有效提高硬件的可靠性,確保其在各種環(huán)境下穩(wěn)定運(yùn)行。
一般來說,系統(tǒng)總是由多個(gè)子系統(tǒng)組成,而子系統(tǒng)又是由更小的子系統(tǒng)組成,直到細(xì)分到電阻器、電容器、電感、晶體管、集成電路、機(jī)械零件等小元件的復(fù)雜組合,其中任何一個(gè)元件發(fā)生故障都會(huì)成為系統(tǒng)出現(xiàn)故障的原因。因此,硬件可靠性設(shè)計(jì)在保證元器件可靠性的基礎(chǔ)上,既要考慮單一控制單元的可靠性設(shè)計(jì),更要考慮整個(gè)控制系統(tǒng)的可靠性設(shè)計(jì)。
1.影響硬件可靠性的因素
(1)元件失效。元件失效有三種:一是元件本身的缺陷,如硅裂、漏氣等;二是加工過程、環(huán)境條件的變化加速了元件、組件的失效;三是工藝問題,如焊接不牢、篩選不嚴(yán)等。
(2)設(shè)計(jì)不當(dāng)。在計(jì)算機(jī)控制系統(tǒng)中,許多元器件發(fā)生的故障并不是元件本身的問題,而是系統(tǒng)設(shè)計(jì)不合理或元器件使用不當(dāng)所造成。
在設(shè)計(jì)過程中,如何正確使用各種型號(hào)的元器件或集成電路,是提高硬件可靠性不可忽視的重要因素。
(1)電氣性能:元器件的電氣性能是指元器件所能承受的電壓、電流、電容、功率等的能力,在使用時(shí)要注意元器件的電氣性能,不能超限使用。
(2)環(huán)境條件:計(jì)算機(jī)控制系統(tǒng)的工作環(huán)境有時(shí)相當(dāng)惡劣,由于環(huán)境因素的影響,不少系統(tǒng)的實(shí)驗(yàn)室試驗(yàn)情況雖然良好,但安裝到現(xiàn)場(chǎng)并長期運(yùn)行就頻出故障。其原因是多方面的,包括溫度、干擾、電源、現(xiàn)場(chǎng)空氣等對(duì)硬件的影響。因此,設(shè)計(jì)系統(tǒng)時(shí),應(yīng)考慮環(huán)境條件對(duì)硬件參數(shù)的影響,元件設(shè)備須經(jīng)老化試驗(yàn)處理。
(3)組裝工藝:在硬件設(shè)計(jì)中,組裝工藝直接影響硬件系統(tǒng)的可靠性。由于工藝原因引起的故障很難定位排除,一個(gè)焊點(diǎn)的虛焊或似接非接很可能導(dǎo)致整個(gè)系統(tǒng)在工作過程中不時(shí)地出現(xiàn)工作不正?,F(xiàn)象。另外,設(shè)計(jì)印制電路板時(shí)應(yīng)考慮元器件的布局、引線的走向、引線的分類排序等。
2.提高硬件可靠性的一般方法
在計(jì)算機(jī)控制系統(tǒng)的整體設(shè)計(jì)中,如何提高系統(tǒng)硬件的可靠性是整個(gè)系統(tǒng)設(shè)計(jì)的關(guān)鍵,系統(tǒng)硬件設(shè)計(jì)時(shí)常需采用必要的可靠性措施:
(1)電路設(shè)計(jì)。據(jù)統(tǒng)計(jì),影響計(jì)算機(jī)控制系統(tǒng)可靠性的因素約45%來自系統(tǒng)設(shè)計(jì)。為了保證系統(tǒng)的可靠性,在對(duì)其電路設(shè)計(jì)時(shí)應(yīng)考慮最極端的情況。
各種電子元器件的特性不可能是一個(gè)恒定值,總是在其額定(典型)參數(shù)的某個(gè)范圍內(nèi);同時(shí),電源、電壓也有一個(gè)波動(dòng)范圍。最壞的設(shè)計(jì)方法是考慮所有元件的公差,并取其最不利的數(shù)值核算電路每一個(gè)規(guī)定的特性。如果這一組參數(shù)值能保證電路正常工作,那么在公差范圍內(nèi)的其他所有元件值都能使電路可靠地工作。
在設(shè)計(jì)應(yīng)用系統(tǒng)電路時(shí),還要根據(jù)元器件的失效特征及其使用場(chǎng)所采取相應(yīng)的措施,對(duì)容易產(chǎn)生短路的部件以串聯(lián)方式復(fù)制,對(duì)容易產(chǎn)生開路的部分以并聯(lián)方式復(fù)制。
(2)元器件選擇。在確定元器件參數(shù)之后,還要確定元器件的型號(hào),這主要取決于電路所允許的公差范圍。由于制造工藝所限,有些元器件參數(shù)的公差范圍可能較大,如電容器電容量等。另外,元件或器件的額定工作條件包括多個(gè)方面(如電流、電壓、頻率、機(jī)械參數(shù)以及環(huán)境溫度等),設(shè)計(jì)時(shí)要考慮參數(shù)裕量,并在運(yùn)行時(shí)盡量保證接近元器件的設(shè)計(jì)工作溫度。
(3)結(jié)構(gòu)設(shè)計(jì)。結(jié)構(gòu)可靠性設(shè)計(jì)是硬件可靠性設(shè)計(jì)的最后階段。結(jié)構(gòu)設(shè)計(jì)時(shí),首先應(yīng)注意元器件及部件的安裝方式,其次是控制系統(tǒng)工作環(huán)境的條件(如通風(fēng)、除濕、防塵等)。
(4)噪聲抑制。噪聲對(duì)模擬電路的影響會(huì)直接影響系統(tǒng)精度,噪聲對(duì)數(shù)字電路也會(huì)造成誤動(dòng)作。因此,在工程設(shè)計(jì)中必須采用噪聲抑制和屏蔽措施。對(duì)于模擬應(yīng)用系統(tǒng),可在電源端增加一些低通濾波電路來抑制由電源引入的干擾;對(duì)于數(shù)字系統(tǒng),通常采用濾波器和接地系統(tǒng);同時(shí),在整體結(jié)構(gòu)布局時(shí)應(yīng)注意元器件的位置和信號(hào)線的走向。對(duì)于電磁干擾、電場(chǎng)干擾可采用電磁屏蔽、靜電屏蔽來隔離噪聲,也可采用接地、去耦電容等措施來減少噪聲的影響。
(5)冗余設(shè)計(jì)。硬件冗余設(shè)計(jì)可以在元件級(jí)、子系統(tǒng)級(jí)或系統(tǒng)級(jí)上進(jìn)行,必然增加硬件和成本。因此,設(shè)計(jì)時(shí)應(yīng)仔細(xì)權(quán)衡采用硬件冗余的利弊關(guān)系。在計(jì)算機(jī)控制系統(tǒng)中,主要采用控制單元冗余和控制系統(tǒng)冗余來提高系統(tǒng)硬件可靠性。
3. 單元可靠性設(shè)計(jì)
控制與接口單元是指能獨(dú)立完成某些測(cè)控功能的功能模塊,其可靠性設(shè)計(jì)主要包括微處理器系統(tǒng)的冗余設(shè)計(jì)、輸入輸出通道干擾的抑制、電源系統(tǒng)干擾的抑制、控制單元運(yùn)行狀態(tài)的監(jiān)視等。
(1)I/O通道干擾的抑制
模擬量輸入通道常態(tài)干擾的頻率通常高于被測(cè)信號(hào)的頻率,因此可考慮采用濾波網(wǎng)絡(luò)對(duì)模擬量輸入信號(hào)進(jìn)行濾波??刹捎酶鞣N形式的金屬屏蔽層做好信號(hào)傳送線路的屏蔽工作,將信號(hào)線與外界電磁場(chǎng)有效地隔離開來;在系統(tǒng)既有模擬電路又有數(shù)字電路時(shí),數(shù)字地與模擬地要分開,最后只在一點(diǎn)相連,以防相互干擾。I/O通道一般應(yīng)采用光電耦合器進(jìn)行電氣隔離,既可避免構(gòu)成地環(huán)路,還可有效地抑制噪聲。另外,在輸入輸出通道上應(yīng)采用一定的過壓保護(hù)電路。
(2)電源系統(tǒng)干擾的抑制
同一電源網(wǎng)路上有較多大功率設(shè)備時(shí),在控制單元與供電電源之間可加入三相隔離變壓器,以防止電網(wǎng)干擾侵入控制系統(tǒng)。在整機(jī)的電源線入口處,可通過增加電源濾波器來防止其他電子設(shè)備與本系統(tǒng)之間產(chǎn)生相互干擾。在機(jī)內(nèi)獨(dú)立的印刷板上應(yīng)安裝小型電源濾波器,以防止板與板之間的相互干擾。
由于開關(guān)電源具有較強(qiáng)的抗工頻電壓波動(dòng)和頻率波動(dòng)能力,同時(shí)能隔離從電源線進(jìn)入的傳導(dǎo)干擾,適當(dāng)場(chǎng)合可選用開關(guān)電源。必要時(shí),系統(tǒng)輸入輸出通道和其他設(shè)備可考慮采用獨(dú)立的供電電源,實(shí)行電源分組供電。另外,邏輯電路板上的直流電源線和接地線要注意合理布線。
(3)控制單元運(yùn)行狀態(tài)監(jiān)視
可使用看門狗定時(shí)器(WDT)監(jiān)視控制單元的運(yùn)行狀態(tài)。WDT的輸出直接連到CPU的中斷請(qǐng)求端或控制單元的復(fù)位端,WDT的每次“定時(shí)到”溢出脈沖信號(hào)均能引起CPU的中斷或復(fù)位。WDT受CPU控制,可對(duì)其重新設(shè)置時(shí)間常數(shù)或刷新。
定時(shí)器重新開始計(jì)時(shí),只要程序正常運(yùn)行就不會(huì)產(chǎn)生定時(shí)中斷或系統(tǒng)復(fù)位。一旦程序執(zhí)行出錯(cuò)或發(fā)生程序亂飛、死機(jī)現(xiàn)象,看門狗定時(shí)器就會(huì)產(chǎn)生溢出脈沖信號(hào),引起定時(shí)中斷或復(fù)位,從而使控制單元重新啟動(dòng)或進(jìn)入中斷服務(wù)程序進(jìn)行糾錯(cuò)處理。
(4)控制單元的掉電保護(hù)
對(duì)付電網(wǎng)瞬間斷電或電壓突然下降的有效方法就是掉電保護(hù),對(duì)計(jì)算機(jī)測(cè)控系統(tǒng)可外加不間斷電源(UPS),對(duì)測(cè)控系統(tǒng)中的控制單元可增加掉電保護(hù)電路,并慎重設(shè)計(jì)。掉電信號(hào)由硬件電路檢測(cè),加到控制單元CPU的外部中斷輸入端。軟件中斷將掉電中斷規(guī)定為高級(jí)中斷,使控制單元CPU能及時(shí)對(duì)掉電做出反應(yīng)。在掉電中斷子程序中,首先進(jìn)行現(xiàn)場(chǎng)保護(hù),保存當(dāng)時(shí)重要的狀態(tài)參數(shù)。當(dāng)電源恢復(fù)正常時(shí),CPU重新復(fù)位,恢復(fù)現(xiàn)場(chǎng)并繼續(xù)未完成的工作。
(5)控制單元冗余設(shè)計(jì)
常用的控制單元冗余設(shè)計(jì)包括熱備份并聯(lián)冗余和冷備份并聯(lián)冗余,兩者都是以增加成倍的硬件投資來換取系統(tǒng)硬件的可靠性。
(1)熱備份并聯(lián)冗余是將若干功能相同的控制單元并聯(lián)運(yùn)行,同步執(zhí)行相同的處理程序,當(dāng)并聯(lián)系統(tǒng)中至少有一個(gè)控制單元工作正常時(shí),整個(gè)系統(tǒng)即維持正常工作。
為了提高控制單元的可靠性和經(jīng)濟(jì)性,常采用雙機(jī)熱備份并聯(lián)方式。對(duì)受控系統(tǒng)而言,雙機(jī)熱備份并聯(lián)方式只是其中一個(gè)控制單元完成測(cè)控任務(wù),另一個(gè)控制單元處于并行工作的待命狀態(tài)。但兩個(gè)控制單元同步執(zhí)行同樣的程序,一旦自檢系統(tǒng)發(fā)現(xiàn)主控單元有故障時(shí),則待命狀態(tài)的備控單元自動(dòng)切換上去,代替主控單元使系統(tǒng)繼續(xù)正常運(yùn)行。在設(shè)計(jì)雙機(jī)熱備份系統(tǒng)時(shí),要解決以下兩個(gè)主要問題:
1)雙機(jī)同步。雙機(jī)同步一般是以事件作為同步令牌,其中事件可由設(shè)計(jì)者定義。如系統(tǒng)的工作過程為:輸入接口采集由傳感器送來的數(shù)據(jù),在CPU內(nèi)將采集到的數(shù)據(jù)和設(shè)定值進(jìn)行比較、處理,最后得到本次的控制量輸出。那么,事件可劃分為數(shù)據(jù)采集和數(shù)據(jù)處理兩個(gè)事件。
當(dāng)應(yīng)用系統(tǒng)啟動(dòng)時(shí),兩機(jī)同時(shí)執(zhí)行第一事件,即采集狀態(tài)數(shù)據(jù)。當(dāng)?shù)谝皇录瓿珊?,再將兩結(jié)果進(jìn)行比較,如果相同則繼續(xù)第二事件;若有錯(cuò)誤,則主控單元自動(dòng)切換,用備控單元代替主控單元。只要主控單元工作正常,則備控單元一直處于待命狀態(tài)。
當(dāng)事件進(jìn)行數(shù)據(jù)處理時(shí),若超出精度范圍,則認(rèn)為其中一個(gè)數(shù)據(jù)可能有錯(cuò)誤,這時(shí)可以讓雙機(jī)重新轉(zhuǎn)到本事件的首地址再執(zhí)行一遍。若仍有差錯(cuò),則再轉(zhuǎn)到故障檢測(cè)程序。這種軟件回卷方法可以消除某些偶然性因素的影響。