基于深度學(xué)習(xí)的局部放電數(shù)據(jù)診斷系統(tǒng)的樣本處理方法研究
引言
基于目前電力設(shè)備數(shù)量級(jí)迅猛增長的電網(wǎng)的規(guī)模和運(yùn)維工作需求,國家電網(wǎng)在"十三五"規(guī)劃中設(shè)立了智能運(yùn)檢的建設(shè)目標(biāo):2021年初步建成智能運(yùn)檢體系。通過應(yīng)用"大云物移"等新技術(shù),以智能運(yùn)檢九大典型技術(shù)領(lǐng)域?yàn)橹攸c(diǎn),以設(shè)備、通道、運(yùn)維、檢修和生產(chǎn)管理智能化為途徑,全面構(gòu)建智能運(yùn)檢體系,全面提升設(shè)備狀態(tài)管控力和運(yùn)檢管理穿透力。
由于電纜輸電安全性高,且敷設(shè)于地下,有利于節(jié)省用地,保證環(huán)境美觀,目前配電網(wǎng)輸電線路中電纜線路的占比普遍較高。而電纜中的局部放電信號(hào)特征是評(píng)價(jià)電纜絕緣水平的重要依據(jù),因此對(duì)電纜局放信號(hào)的檢測有利于更加方便、快捷、準(zhǔn)確地掌握電纜絕緣的運(yùn)行狀態(tài),有助于電纜的可靠運(yùn)行。
目前,電纜中局部放電信號(hào)的檢測和定位已成為國內(nèi)外研究的熱點(diǎn),并且獲得了很多有價(jià)值的研究成果。針對(duì)電力領(lǐng)域智能運(yùn)檢的需求,對(duì)電纜中的局部放電信號(hào)進(jìn)行圖像識(shí)別和智能診斷對(duì)于提高電力系統(tǒng)的智能運(yùn)維水平具有重要的意義。因此,基于深度學(xué)習(xí)、卷積神經(jīng)網(wǎng)絡(luò)等前沿技術(shù)進(jìn)行電纜局部放電數(shù)據(jù)診斷系統(tǒng)的研究具有非常廣闊的前景。
高質(zhì)量的樣本數(shù)據(jù)是提高局部放電診斷模型訓(xùn)練準(zhǔn)確率的前提,本文分別采用樣本篩選技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)來解決殘缺、冗余樣本問題和樣本不均衡問題,為基于深度學(xué)習(xí)的局部放電診斷模型的準(zhǔn)確率提升提供技術(shù)支撐。
1樣本篩選技術(shù)現(xiàn)狀
在局部放電樣本累積過程中,經(jīng)常出現(xiàn)大量幅值分布、相位分布均非常類似的樣本,在對(duì)故障源同一時(shí)段的集中檢測中該現(xiàn)象尤為常見。而在深度學(xué)習(xí)的訓(xùn)練中,模型質(zhì)量和樣本數(shù)量并不完全成正比,損壞的樣本、大量重復(fù)的樣本不僅無法達(dá)到增強(qiáng)網(wǎng)絡(luò)性能的目的,反而會(huì)造成迭代緩慢、訓(xùn)練速度下降,甚至有可能引起過擬合。
在很多機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的研究中,都假設(shè)使用的訓(xùn)練樣本各類別是同等數(shù)量的,或稱訓(xùn)練樣本是均衡的。但是真實(shí)場景中遇到的實(shí)際問題往往不符合這個(gè)假設(shè)。一般而言,非均衡的訓(xùn)練樣本會(huì)導(dǎo)致模型側(cè)重于樣本數(shù)目較多的類別,而忽略樣本數(shù)目較少的類別。如果在二分類中有99個(gè)正樣本和1個(gè)負(fù)樣本,那么很多學(xué)習(xí)算法包括神經(jīng)網(wǎng)絡(luò)算法會(huì)放棄負(fù)例預(yù)測。這樣,即使訓(xùn)練出的模型也在樣本集上可以達(dá)到99%的高準(zhǔn)確率,這樣的模型也不具備泛化性和實(shí)用價(jià)值。因此,對(duì)樣本的均衡處理是訓(xùn)練深度學(xué)習(xí)模型之前的必要措施。
2局放信號(hào)的樣本篩選和處理
2.1樣本篩選
本文采用的樣本篩選技術(shù)包括樣本清洗和樣本查重。
清洗的主要目的是去除格式不正確的、殘缺的圖譜。對(duì)原始數(shù)據(jù)進(jìn)行有效性檢查,檢查其相位、周期是否在有效性范圍內(nèi),以及每個(gè)點(diǎn)的數(shù)據(jù)是否在量程范圍內(nèi)。對(duì)繪制出的圖譜像素檢查包括對(duì)R(Red)、G(Green)、B(Blue)三個(gè)色彩值分別進(jìn)行的合法性檢查。
查重的目的是去除重復(fù)的、冗余的樣本。本文采用的查重分為人工查重和自動(dòng)查重。人工查重依賴人工經(jīng)驗(yàn),主要關(guān)注的是圖譜的幅值、相位、是否對(duì)稱、簇?cái)?shù)和噪聲來源是否相同等特征。自動(dòng)查重通過對(duì)數(shù)據(jù)進(jìn)行相關(guān)性計(jì)算來完成。對(duì)同測點(diǎn)的一批數(shù)據(jù)隨機(jī)抽取一部分作為基礎(chǔ)數(shù)據(jù),統(tǒng)計(jì)剩余數(shù)據(jù)對(duì)基礎(chǔ)數(shù)據(jù)的相關(guān)性,刪除相關(guān)性高于閾值的數(shù)據(jù),閾值設(shè)置為0.95。相關(guān)性的計(jì)算采用的是Pearson相關(guān)系數(shù),其計(jì)算公式如下所示:
式中:px,y為x和y之間的Pearson相關(guān)系數(shù)。
與人工查重相比,自動(dòng)查重效率較高,且減少了人工參與比例,提高了自動(dòng)化程度。
2.2樣本數(shù)據(jù)增強(qiáng)
樣本庫中的訓(xùn)練和測試數(shù)據(jù)來自于多個(gè)變電站現(xiàn)場的實(shí)測局部放電數(shù)據(jù)?,F(xiàn)場實(shí)測數(shù)據(jù)的特點(diǎn)在于特征鮮明、數(shù)據(jù)真實(shí)。然而,因數(shù)據(jù)來源各異、缺陷持續(xù)時(shí)間各不相同,對(duì)不同缺陷采集到的樣本數(shù)量有較大的差異,容易造成樣本不均衡。如果基于不均衡的樣本直接進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,會(huì)導(dǎo)致訓(xùn)練出的模型泛化能力差,容易發(fā)生過擬合。數(shù)據(jù)增強(qiáng)是解決樣本不均衡問題的重要手段之一。
本文針對(duì)數(shù)量較少的樣本,通過對(duì)已有樣本進(jìn)行處理,生成新的樣本,平衡各類標(biāo)簽的樣本數(shù)量,避免樣本不平衡對(duì)訓(xùn)練結(jié)果的影響。
使用噪聲疊加法進(jìn)行數(shù)據(jù)增強(qiáng),如圖1所示。在缺陷圖譜上疊加現(xiàn)場常見的噪聲信號(hào),生成新的樣本。疊加方式為:將采集前端采集到的局部放電原始數(shù)據(jù)轉(zhuǎn)成以相位為x軸,周期為y軸,幅值為:軸的三維數(shù)據(jù):然后按照現(xiàn)場干擾的數(shù)據(jù)特征,分別生成各干擾對(duì)應(yīng)的三維數(shù)據(jù):再對(duì)局部放電原始數(shù)據(jù)和干擾數(shù)據(jù)進(jìn)行幅值累加,得到干擾疊加后的數(shù)據(jù)。
同時(shí),本文還采用了稀疏處理法來進(jìn)行數(shù)據(jù)增強(qiáng),如圖2所示。在真實(shí)缺陷數(shù)據(jù)的基礎(chǔ)上,隨機(jī)去除部分脈沖,生成新的樣本。依此種辦法生成的圖譜和原圖譜相似但不相同,又同樣具備缺陷特征。稀疏處理方法是補(bǔ)充原有樣本集的優(yōu)秀手段。
高質(zhì)量的樣本數(shù)據(jù)是提高模型訓(xùn)練準(zhǔn)確率的前提,樣本收集工作是一個(gè)持續(xù)的過程,需要持續(xù)收集更多的樣本數(shù)據(jù)。
3結(jié)語
基于局部放電智能診斷模型對(duì)高質(zhì)量的樣本數(shù)據(jù)的需求,本文提出采用樣本篩選技術(shù)和數(shù)據(jù)增強(qiáng)技術(shù)來解決殘缺、冗余樣本問題和樣本不均衡問題。在樣本篩選中使用了樣本清洗和樣本查重等方法,同時(shí)使用了噪聲疊加法和稀疏處理法對(duì)樣本進(jìn)行數(shù)據(jù)增強(qiáng),可以為提高局放診斷系統(tǒng)的準(zhǔn)確率提供技術(shù)支撐。