SDH傳輸故障處理分析
傳輸系統(tǒng)的日常維護(hù)工作經(jīng)常要求我們對(duì)各類故障進(jìn)行定位并及時(shí)排除。故障定位最關(guān)鍵的是將故障點(diǎn)準(zhǔn)確地定位到單板,然后排除故障。這就需要對(duì)故障產(chǎn)生的原因、處理的思路及方法有一個(gè)清晰的認(rèn)識(shí),這樣才能夠達(dá)到事半功倍的效果。
傳輸故障定位的基本原則
眾所周知,傳輸故障定位一般應(yīng)遵循“先搶通后修復(fù)、先外部后傳輸、先單站后單板、先線路后支路、先高級(jí)后低級(jí)”的原則。
1.先搶通后修復(fù)
在出現(xiàn)故障時(shí),系統(tǒng)維護(hù)者要首先搶通業(yè)務(wù)然后進(jìn)行故障修復(fù)。如果存在影響業(yè)務(wù)情況下的傳輸網(wǎng)絡(luò)告警故障,如在2Mbit/s業(yè)務(wù)通道出現(xiàn) LOS(信號(hào)丟失)告警,因外線原因?qū)е碌氖諢o(wú)光告警,單元盤故障產(chǎn)生的UnitFailure(單元失效)告警等情況下產(chǎn)生的故障,必須首先搶通業(yè)務(wù)。
不過(guò)要想先搶通業(yè)務(wù)需要一個(gè)先決條件,那就是網(wǎng)絡(luò)中有與故障通道相同起始點(diǎn)的可用通道資源或與故障板件相同的可用備板。
2.先外部后傳輸
在處理故障時(shí)應(yīng)先排除外部的可能因素,如斷纖、終端設(shè)備故障、電源或機(jī)房環(huán)境配套故障等,而后進(jìn)行傳輸系統(tǒng)原因查找。當(dāng)可能存在外界因素影響而產(chǎn)生傳輸網(wǎng)絡(luò)告警故障時(shí),如設(shè)備溫度告警、光路告警、網(wǎng)元失效告警,也需照此原則處理。
3.先單站后單板
指在查找傳輸設(shè)備故障原因時(shí),需要先定位到站點(diǎn)再定位到板件。
一般設(shè)備故障時(shí),不會(huì)只是一個(gè)站點(diǎn)出現(xiàn)告警,而是在很多站點(diǎn)同時(shí)上報(bào)告警。這時(shí)就需要通過(guò)分析和判斷縮小范圍,快速、準(zhǔn)確地定位是哪個(gè)單站的問(wèn)題,而后盡可能準(zhǔn)確地將故障定位到單站后再具體定位到單板。如處理光路誤碼、光功率異常等告警處理時(shí),需要結(jié)合業(yè)務(wù)信號(hào)流,對(duì)告警與性能事件一起進(jìn)行分析??刹捎铆h(huán)回法、替代法、數(shù)據(jù)分析法、儀表測(cè)試法來(lái)判斷告警及故障產(chǎn)生的原因,將其定位到單板。
4.先線路后支路
在處理故障時(shí),如果支路出現(xiàn)了大量AIS告警,這時(shí)需要先排除線路板故障再查看支路板故障。
由于傳輸系統(tǒng)線路板的故障常常會(huì)引起支路板的異常告警,在處理告警時(shí),應(yīng)按“先線路后支路”的順序,排除網(wǎng)管告警;如支路出現(xiàn)大量AIS則首先查看線路板是否出現(xiàn)LOS告警或其他異常告警,再查看支路板告警。
5.先高級(jí)后低級(jí)
在進(jìn)行告警分析時(shí),先分析高級(jí)別告警再分析低級(jí)別告警。
特別是當(dāng)高、低級(jí)別告警同時(shí)存在時(shí),應(yīng)首先分析級(jí)別高的告警,如緊急告警、主要告警,然后再分析低級(jí)別的告警,如次要告警、一般告警。處理告警時(shí),系統(tǒng)維護(hù)者先處理影響業(yè)務(wù)的告警。如果這些告警是由更高一級(jí)的告警引起的,則先處理更高一級(jí)的告警,如AIS、LOP等。如果是由LOS引發(fā)的,要先處理LOS告警。
傳輸故障形成原因
導(dǎo)致傳輸故障的原因很多,按照故障的來(lái)源,大體上可分為工程施工缺陷、日常維護(hù)操作不當(dāng)、設(shè)備對(duì)接失敗、設(shè)備外部原因及設(shè)備本身原因等。
1.工程施工不規(guī)范、質(zhì)量差
此類故障有的在施工期間就能暴露出來(lái),有的可能在設(shè)備運(yùn)行一段時(shí)間或某些外因作用下,才暴露出來(lái),從而為設(shè)備的穩(wěn)定運(yùn)行埋下隱患。為了杜絕此類故障,施工人員需要嚴(yán)格按工程規(guī)范施工安裝,認(rèn)真細(xì)致地按規(guī)范要求進(jìn)行單點(diǎn)和全網(wǎng)的調(diào)試和測(cè)試。
2.日常維護(hù)操作不當(dāng)
維護(hù)人員由于對(duì)系統(tǒng)了解不夠深入細(xì)致,對(duì)具體設(shè)備的細(xì)節(jié)、性能特點(diǎn)和注意事項(xiàng)以及新老設(shè)備和新舊版本的特點(diǎn)和差別不清楚,就貿(mào)然開通而容易導(dǎo)致故障。此類故障最容易在升級(jí)擴(kuò)容、新老設(shè)備及版本混用、使用新版的備板和使用未經(jīng)系統(tǒng)聯(lián)調(diào)的板件的情況下出現(xiàn)。
3.設(shè)備對(duì)接失敗
由于傳送業(yè)務(wù)的多樣性和業(yè)務(wù)對(duì)傳輸通道性能需求的復(fù)雜性,傳輸設(shè)備的對(duì)接十分復(fù)雜,這時(shí)容易出現(xiàn)系列問(wèn)題,比如線纜連接錯(cuò)誤,設(shè)備接地不符合要求,傳輸、交換網(wǎng)絡(luò)之間時(shí)鐘同步異常,SDH幀結(jié)構(gòu)中開銷字節(jié)的定義差別等,都會(huì)導(dǎo)致故障的產(chǎn)生。
4.設(shè)備外部原因
設(shè)備外部故障也將導(dǎo)致傳輸故障。導(dǎo)致傳輸故障的外部原因很多,包括:一、電源系統(tǒng)及配套故障。如交流停電、直流掉電、熔斷器故障、供電電壓過(guò)低、接地不良、環(huán)境劣化等;二、光纖光纜故障。如光纜線路中斷,光纜線路衰耗過(guò)大、尾纖斷,尾纖彎曲半徑過(guò)小,法蘭盤接頭有灰塵及尾纖頭臟等;三、電纜故障。如2Mbit/s電纜中斷,2Mbit/s接口輸入輸出端口脫落、松動(dòng)而造成的接觸不良等;四、交換機(jī)故障。
5.設(shè)備本身原因
這指的是設(shè)備本身?yè)p壞或板件配合存在著問(wèn)題。常見的現(xiàn)象有:一、單盤故障。如線路板、2Mbit/s板、時(shí)鐘板、交叉板、主控板等器件損壞;二、網(wǎng)管系統(tǒng)故障。包括網(wǎng)管與設(shè)備之間的網(wǎng)線故障或系統(tǒng)異常而造成的ECC通道中斷、死機(jī)等情況。
需要提醒的是,設(shè)備在運(yùn)行較長(zhǎng)時(shí)間后,板件會(huì)自然老化,這種由于設(shè)備老化而產(chǎn)生的故障也屬于此類。設(shè)備老化故障有一個(gè)共同特點(diǎn):設(shè)備已使用較長(zhǎng)時(shí)間,故障之前設(shè) 備基本正常,故障只是在個(gè)別點(diǎn)、個(gè)別板件出現(xiàn),或在一些外因作用下出現(xiàn)。
故障處理思路
在遇到故障時(shí),系統(tǒng)維護(hù)者應(yīng)該不慌不亂,仔細(xì)查看故障現(xiàn)象并分析可能原因,從而做到有的放矢,迅速處理。故障處理一般應(yīng)遵循“先看,再問(wèn),然后思考,最后動(dòng)手”的思路。
系統(tǒng)維護(hù)者到達(dá)現(xiàn)場(chǎng)后首先查看故障的現(xiàn)象,包括故障出現(xiàn)的位置,有哪些告警,故障的嚴(yán)重程度,造成的危害等,這樣才能夠明白故障的本質(zhì)。
查看完現(xiàn)象后,系統(tǒng)維護(hù)者應(yīng)詢問(wèn)各階段現(xiàn)場(chǎng)人員,該現(xiàn)象是由何種原因造成,比如是否有人修改了數(shù)據(jù),刪除了文件,更換了電路板;是否遭遇停電或雷擊,是否存在操作不當(dāng)現(xiàn)象。
根據(jù)以上結(jié)果,系統(tǒng)維護(hù)者再結(jié)合自己的知識(shí)思考、分析,判斷何種原因可能引起該種故障等,做出較為正確的判斷。最后根據(jù)故障定位原則找出故障點(diǎn),通過(guò)修改數(shù)據(jù)、更換單板等方法排除故障。
常見傳輸故障處理方法
常見的傳輸故障處理方法包括觀察分析法、環(huán)回測(cè)試法、插拔法、替換法、配置數(shù)據(jù)分析法、更改配置法、儀表測(cè)試法和經(jīng)驗(yàn)處理法。
1.觀察分析法
系統(tǒng)故障時(shí)一般會(huì)伴有相應(yīng)的告警信息。通過(guò)觀察告警燈運(yùn)行情況,可以及時(shí)發(fā)現(xiàn)故障。故障發(fā)生時(shí),網(wǎng)管上也會(huì)記錄非常豐富的告警事件和性能數(shù)據(jù)信息,通過(guò)分析這些信息,并結(jié)合SDH幀結(jié)構(gòu)中的開銷字節(jié)和SDH告警原理機(jī)制,初步判斷故障類型和故障點(diǎn)的位置。
2.環(huán)回測(cè)試法
有時(shí)觀察分析法不能解決問(wèn)題,如組網(wǎng)、業(yè)務(wù)以及故障信息相當(dāng)復(fù)雜的情況和無(wú)明顯告警和性能信息上報(bào)的特殊故障情況。系統(tǒng)維護(hù)者可以利用網(wǎng)管提供的維護(hù)功能進(jìn)行測(cè)試,判斷故障點(diǎn)和類型。最常見的方法是環(huán)回。
環(huán)回是定位故障點(diǎn)最有效和常用的方法,它不需要對(duì)告警和性能做太深入的分析,缺點(diǎn)是會(huì)影響業(yè)務(wù),一般在業(yè)務(wù)量小的時(shí)候使用。
3.插拔法
當(dāng)發(fā)現(xiàn)某種電路板有故障時(shí),系統(tǒng)維護(hù)者可以通過(guò)插拔一下電路板和外部接口插頭的方法,排除因接觸不良或處理機(jī)異常產(chǎn)生的故障。在插拔時(shí),系統(tǒng)維護(hù)者要注意遵循單板插拔的操作規(guī)范,以免導(dǎo)致其它問(wèn)題甚至損壞板件。
4.替換法
當(dāng)用插拔法不能解決問(wèn)題時(shí),可以考慮替換法。替換法就是使用一個(gè)正常的備件去替換一個(gè)被懷疑工作不正常的元件,從而實(shí)現(xiàn)故障的定位和排除。
替換法適用于排除傳輸外部設(shè)備的問(wèn)題,如光纖、中繼電纜、交換機(jī)、供電設(shè)備等?;蚬收隙ㄎ坏絾握竞?,用于排除單站內(nèi)單板的問(wèn)題。如某站光板有告警,我們懷疑收發(fā)光纖接反,則可將收、發(fā)兩根光纖互換。若互換后,光板告警消失,就說(shuō)明確實(shí)光纖接反。
替換法的優(yōu)點(diǎn)在于方法簡(jiǎn)單,對(duì)維護(hù)人員要求不高,比較實(shí)用,但對(duì)備件有要求。另外替換插拔電路板時(shí),需要按照操作規(guī)范執(zhí)行。
5.配置數(shù)據(jù)分析法
配置數(shù)據(jù)分析法是指通過(guò)開銷字節(jié)配置及狀態(tài)分析、更改交叉連接等手段對(duì)告警進(jìn)行輔助判斷和處理的故障排除方法。
配置數(shù)據(jù)分析法的優(yōu)點(diǎn)是不影響業(yè)務(wù),不需要儀表,能夠正確識(shí)別硬件連接錯(cuò)位,處理效率高。但是故障定位的時(shí)間相對(duì)較長(zhǎng),且對(duì)維護(hù)人員的要求非常高。一般只有對(duì)設(shè)備非常熟悉且經(jīng)驗(yàn)非常豐富的維護(hù)人員才能使用。在使用該方法時(shí),應(yīng)盡量選擇J0/J1/V3等不影響業(yè)務(wù)的蹤跡字節(jié)和其他狀態(tài)字節(jié)。
6.更改配置法
更改配置法是對(duì)時(shí)隙、板位、單板參數(shù)重新進(jìn)行配置。故適用于故障定位到單個(gè)站點(diǎn)后,排除由于配置錯(cuò)誤而導(dǎo)致的故障。
當(dāng)通過(guò)更改時(shí)隙配置不能將故障確切地定位到是哪塊單板的問(wèn)題時(shí),需進(jìn)一步通過(guò)替換法進(jìn)行故障定位。因此該方法適用于沒(méi)有備板的情況下,初步定位故障類型,并使用其他業(yè)務(wù)通道或板位暫時(shí)恢復(fù)業(yè)務(wù)。
該方法操作起來(lái)比較復(fù)雜,對(duì)維護(hù)人員的水平要求較高。因此,除非在沒(méi)有備板的情況下用于臨時(shí)恢復(fù)業(yè)務(wù),或用于定位指針調(diào)整問(wèn)題,一般情況不推薦使用。
7.儀表測(cè)試法
儀表測(cè)試法一般用于排除傳輸設(shè)備外部問(wèn)題以及與其它設(shè)備的對(duì)接問(wèn)題。傳輸設(shè)備常用測(cè)試儀表包括2Mbit/s誤碼測(cè)試儀、SDH測(cè)試儀、光譜分析儀等。
通過(guò)儀表測(cè)試法分析定位故障比較準(zhǔn)確。缺點(diǎn)是對(duì)儀表有需求,同時(shí)對(duì)維護(hù)人員的要求也較高。
8.經(jīng)驗(yàn)處理法
在一些特殊的情況下,如由于瞬間供電異常,低壓或外部強(qiáng)烈的電磁干擾,致使傳輸設(shè)備某些單板進(jìn)入異常工作狀態(tài)。此時(shí)的故障現(xiàn)象,如業(yè)務(wù)中斷、 ECC通信中斷等,可能伴隨相應(yīng)的告警,也可能沒(méi)有任何告警,檢查各單板的配置數(shù)據(jù)可能也是完全正常的。經(jīng)驗(yàn)證明,在這種情況下,系統(tǒng)維護(hù)者通過(guò)復(fù)位單板,網(wǎng)元掉電重啟,重新下發(fā)配置或?qū)I(yè)務(wù)倒換到備用通道等手段,可有效地及時(shí)排除故障、恢復(fù)業(yè)務(wù)。
建議系統(tǒng)維護(hù)者盡量少使用該方法來(lái)處理,因?yàn)樵摲椒ú焕诠收显虻膹氐撞榍?。遇到這種情況,除非情況緊急,一般還是應(yīng)盡量使用前面介紹的幾種方法,或通過(guò)正確渠道請(qǐng)求技術(shù)支援,盡可能地將故 障定位出來(lái),以消除設(shè)備內(nèi)外的隱患。
典型案例分析
為了更深入地理解傳輸故障的處理思路和方法,現(xiàn)對(duì)幾個(gè)典型的案例進(jìn)行分析。
1.傳輸2Mbit/s線故障引起業(yè)務(wù)中斷
故障現(xiàn)象:某網(wǎng)元2Mbit/s業(yè)務(wù)中斷,傳輸設(shè)備為華為155/622H,傳輸設(shè)備上有T-LOS告警。
故障分析:由于傳輸設(shè)備上有T-LOS告警,系統(tǒng)維護(hù)者可以肯定傳輸設(shè)備光路沒(méi)有任何問(wèn)題。因?yàn)樵趥鬏斣O(shè)備到網(wǎng)元的2Mbit/s電路上有故障,所以問(wèn)題可能出在傳輸設(shè)備電接口板SP1D或是2Mbit/s線故障。
故障定位和解決步驟:到站先用環(huán)回的方式判斷故障點(diǎn),在DDF架上做遠(yuǎn)端環(huán)回時(shí),傳輸設(shè)備仍有T-LOS告警,做近端環(huán)回時(shí)通路正常,說(shuō)明是 DDF架到SP1D板的2Mbit/s線有問(wèn)題,且是SP1D板到DDF架上的發(fā)支路故障,與開始的分析吻合。由于SP1D板到DDF架上的2Mbit /s線是成品線,無(wú)法修復(fù),只有將SP1D板上未用的2Mbit/s成品線與故障線成功對(duì)換后,告警消除,放通2Mbit/s,業(yè)務(wù)才恢復(fù)正常。為保證以后業(yè)務(wù)的正常開通,系統(tǒng)維護(hù)者最后將壞的那根2Mbit/s成品線換下,以保證所有2Mbit/s線是正常的。
結(jié)論:此故障是一個(gè)典型的2Mbit/s線故障引起業(yè)務(wù)中斷案例,在這個(gè)案例中,我們根據(jù)故障現(xiàn)象,預(yù)先分析出故障屬于2Mbit/s電路故障,并由最常規(guī)的環(huán)回方式來(lái)判斷故障點(diǎn),找到故障點(diǎn)后迅速地恢復(fù)業(yè)務(wù)。
2.電壓異常導(dǎo)致業(yè)務(wù)中斷
故障現(xiàn)象:某局傳輸組網(wǎng)為4個(gè)OptiX2500設(shè)備組成雙向復(fù)用段保護(hù)環(huán),1號(hào)網(wǎng)元為業(yè)務(wù)中心點(diǎn),接有網(wǎng)管計(jì)算機(jī)。某日,該局3號(hào)網(wǎng)元業(yè)務(wù)中斷,從網(wǎng)管無(wú)法登錄該網(wǎng)元,且2、4號(hào)網(wǎng)元對(duì)應(yīng)3號(hào)網(wǎng)元光板報(bào)“R-LOS”告警。
故障分析及排除:從故障現(xiàn)象分析,應(yīng)該是3號(hào)網(wǎng)元掉電;當(dāng)系統(tǒng)維護(hù)者趕到3號(hào)網(wǎng)元,發(fā)現(xiàn)3號(hào)網(wǎng)元機(jī)架告警燈及單板指示燈全滅。測(cè)量-48V與BGND接線柱之間的電壓為0V;測(cè)量電源設(shè)備輸出電壓,為-53.7V,但電源設(shè)備有輸出電壓不正常告警。
此時(shí)系統(tǒng)維護(hù)者懷疑傳輸設(shè)備內(nèi)部短路。關(guān)閉3號(hào)網(wǎng)元機(jī)柜子架電源開關(guān),重新測(cè)量-48V與BGND接線柱之間的電壓,為-20.39V,可能是機(jī)柜電源盒局部短路將電位拉低。
關(guān)閉電源設(shè)備給傳輸設(shè)備供電的一路電源(拔下電源保險(xiǎn)),斷開傳輸設(shè)備電源輸入電纜,在子架電源開關(guān)關(guān)閉的情況下測(cè)量-48V與BGND之間的電阻,為幾千歐姆,正常。
系統(tǒng)維護(hù)者懷疑電源電纜壓降過(guò)大,測(cè)量-48V、BGND電纜的電阻,均為零點(diǎn)幾歐姆,正常。進(jìn)一步測(cè)量拔下的電源保險(xiǎn),發(fā)現(xiàn)其電阻已達(dá)到十千歐級(jí),故障原因就出在電源保險(xiǎn)上。
換上正常的保險(xiǎn),重新給3號(hào)網(wǎng)元加電,一切正常。
結(jié)論:電源保險(xiǎn)損壞,但并未開路,由于其電阻值變得很大,因此雖然輸出電壓正常,但實(shí)際并無(wú)帶負(fù)載的能力。因此,在遇到傳輸設(shè)備輸出電壓不正常的時(shí)候,系統(tǒng)維護(hù)者除了考慮傳輸設(shè)備的故障因素,還要同時(shí)對(duì)電源設(shè)備進(jìn)行檢查。
3.線路人為盜割中斷引起業(yè)務(wù)中斷
故障現(xiàn)象:某傳輸網(wǎng)XXX01網(wǎng)元~XXX網(wǎng)元,兩傳輸網(wǎng)元互報(bào)R-LOS告警,在該環(huán)上部分網(wǎng)元上報(bào)PS告警,所有網(wǎng)元均能登錄,該環(huán)上及環(huán)到鏈間的業(yè)務(wù)均得到保護(hù),無(wú)業(yè)務(wù)中斷。告警信息有R-LOS、PS、部分備用通道TU-AIS。
原因分析:由于無(wú)業(yè)務(wù)中斷,表明環(huán)倒換正常,且兩網(wǎng)元互保R-LOS告警且均能登錄,初步斷定為該中繼段的光纜斷或設(shè)備尾纖故障。
該環(huán)為PP環(huán),其保護(hù)屬性為支路板倒換,當(dāng)主用通道發(fā)生故障時(shí),支路板會(huì)倒換到另一個(gè)方向進(jìn)行選收業(yè)務(wù),同時(shí)上報(bào)PS告警和備用通道TU-AIS告警,屬正常告警。
處理過(guò)程:檢查設(shè)備尾纖、連接件、光板等,一切正常,斷定為光纜故障。經(jīng)OTDR測(cè)試,發(fā)現(xiàn)XXX01網(wǎng)元出局1.2km處光纜斷,巡線至XXX01網(wǎng)元出局1.2km處,發(fā)現(xiàn)該處被人為盜割。修復(fù)光纜,故障解決。
結(jié)束語(yǔ)
在SDH傳輸網(wǎng)絡(luò)的日常維護(hù)過(guò)程中,我們經(jīng)常會(huì)遇到各種故障現(xiàn)象并伴隨著不同的告警指示,有時(shí)甚至出現(xiàn)一樣的告警指示,貌似同一故障,卻由不同的原因?qū)е?。只有透過(guò)故障的表象找到其本質(zhì),才能實(shí)現(xiàn)故障的準(zhǔn)確定位并迅速排除。這就需要我們了解故障定位的基本原則,明確故障處理的思路,掌握常見的故障處理方法,從而從容應(yīng)對(duì)各種異?,F(xiàn)象,提高日常維護(hù)的效果。