1 引言
人工免疫系統(tǒng)是在生物免疫系統(tǒng)理論的基礎上發(fā)展起來的,是利用生物免疫原理和思想建立的人工模型,具有多樣性、分布性、動態(tài)性、魯棒性等特點。人工免疫系統(tǒng)可以解決模式識別、數(shù)據(jù)挖掘、故障診斷、信息安全、優(yōu)化計算等領域的諸多問題,已經成為繼神經網絡、模糊邏輯和演化計算之后的熱點研究內容[1-3]。
人工免疫網絡(aiNet)是利用免疫理論中的克隆選擇、親和力成熟和免疫網絡理論等構建的網絡模型。作為人工免疫系統(tǒng)范疇內的重要應用模型,它具有噪聲耐受、無教師學習、自組織等優(yōu)點,受到了國內外學者的廣泛關注,研究成果涉及數(shù)據(jù)處理、優(yōu)化學習和故障診斷等領域。
自回歸模型(AR模型)具有線性體系結構,和ARMA模型相比,求解方法和實現(xiàn)手段更為系統(tǒng)和有效。AR模型的理論完善、實現(xiàn)簡單、抗干擾能力強,使得它在數(shù)據(jù)分析與系統(tǒng)建模等很多學科占有重要的地位,廣泛應用于特征提取、參數(shù)估計、頻譜估計、系統(tǒng)建模、時間序列分析與預測等工程技術領域。
對復雜系統(tǒng)實施綜合健康管理,需要實時監(jiān)測系統(tǒng)的運行狀況。如果存在運行歷史數(shù)據(jù)和經驗信息,則通過比較實時獲取數(shù)據(jù)和歷史經驗信息,可以確定復雜系統(tǒng)的當前工作狀態(tài);以此同時,為了避免災難性事故發(fā)生,需要根據(jù)系統(tǒng)當前工作狀況和歷史信息,預測系統(tǒng)未來時刻的運行情況,以便在系統(tǒng)出現(xiàn)故障之前采取必要的措施,將經濟損失降低到最小程度。
復雜系統(tǒng)的結構復雜、子系統(tǒng)數(shù)目多、組件分布廣泛、影響因素多樣,單純地采用傳統(tǒng)方法確定系統(tǒng)運行狀況和預測未來工作狀態(tài)相對困難。人工智能和演化計算領域的飛速發(fā)展,為解決該問題提供了嶄新的途徑。本文將充分利用人工免疫網絡的分布性、記憶性和魯棒性的特點,與基于AR模型的預測方法相結合,面向復雜系統(tǒng)綜合健康管理的實際需求,研究基于人工免疫網絡和AR模型的數(shù)據(jù)聚類與預測方法,為實施系統(tǒng)綜合健康管理進行有益的探討。
2 人工免疫網絡
Jerne在1974年首次提出了免疫網絡理論,并給出抗原和抗體的網絡識別機制[4]。免疫系統(tǒng)能夠辨別“自我”和“非我”,并通過免疫應答機制排除“非我”;免疫系統(tǒng)的初次應答保存了抗原的信息,當再次遇到相同或者相似的抗原時,會迅速引發(fā)二次應答過程,有效地排除“非我”。
在生物免疫理論的基礎上,De Castro和Von Zuben等提出了人工免疫網絡(aiNet)模型[5],它根據(jù)抗體和抗原之間的親和力來確定保留或者剪除求解邊界和節(jié)點,以獲得人工免疫網絡結構(即記憶抗體)。作為抗原內映像的記憶抗體用于檢驗新的抗原,并決定是否啟動二次免疫應答。人工免疫網絡算法流程如下[3]:
3 AR模型概述
4 基于人工免疫網絡和AR模型的數(shù)據(jù)聚類和預測
4.1 聚類和預測算法結構
面向復雜系統(tǒng)綜合健康管理的實際需求,充分利用人工免疫網絡性和自回歸模型的各自優(yōu)勢,實現(xiàn)數(shù)據(jù)的聚類與預測功能的算法體系結構如圖1所示。
在圖1中,首先對獲取的原始數(shù)據(jù)進行歸一化處理,然后采用人工免疫網絡對規(guī)范化的數(shù)據(jù)進行有效地聚類,并根據(jù)聚類結果和復雜系統(tǒng)的歷史信息,判定運行系統(tǒng)所處的狀態(tài)。與此同時,選擇合適的自回歸模型(AR模型),對獲取數(shù)據(jù)的發(fā)展趨勢進行預測,并對預測結果進行規(guī)范化處理,最后依據(jù)聚類結果劃分預測結果類別,確定系統(tǒng)未來時刻所處的狀態(tài),以此作為是否需要對系統(tǒng)運行采取干預措施的決策依據(jù)。
圖1數(shù)據(jù)聚類與預測算法的體系結構
4.2 聚類和預測算法實現(xiàn)
(1) 歸一化原始數(shù)據(jù):在使用人工免疫網絡進行數(shù)據(jù)聚類時,為了提高數(shù)據(jù)的利用效率和簡化計算,需要對數(shù)據(jù)進行歸一化處理[8]。本文采用線性規(guī)范方法,將原始數(shù)據(jù)的取值范圍規(guī)范化到[0,1]之內,實現(xiàn)方法如下
(9)
其中xi 是原始數(shù)據(jù)中第i個數(shù)據(jù), xmin和xmax分別是最小值和最大值, 是歸一化的結果。
(2) 數(shù)據(jù)的聚類方法:使用人工免疫網絡進行數(shù)據(jù)聚類時,設置合理的免疫網絡參數(shù)非常重要。作為聚類過程最重要的參數(shù),抑制閾值 決定了記憶細胞特異水平、聚類準確性和網絡可塑性。通常 值越大,記憶細胞矩陣的最終規(guī)模越小。在實現(xiàn)數(shù)據(jù)聚類過程中,可以預先設置較小的 值,然后通過改變步長進行微調,直至獲得最好聚類效果為止。為了避免聚類結果的偶然性,可以將多次聚類結果的平均值作為最終結果。
在實現(xiàn)數(shù)據(jù)聚類過程中,采用基于邊界加權圖的最小生成樹描述和檢測最終的聚類結構,包括聚類中心和類間距離??乖ㄟ^人工免疫網絡后產生記憶細胞矩陣,在已知類別數(shù)目條件下,利用記憶細胞網絡的最小生成樹實現(xiàn)自動歸類并計算類的中心。終止聚類條件包括:1)迭代過程達到預定次數(shù);2)免疫網絡達到預定的細胞數(shù);3)抗原和記憶細胞的親和度達到預定閾值。
(3) 確定AR模型:為了降低噪聲的影響,需要對原始數(shù)據(jù)進行滑動平均降噪,并建立AR模型和實施前向數(shù)據(jù)預測。可以采用試算法確定AR模型階數(shù),即選取預測精度最高模型的階數(shù);可以采用Burg算法估計AR模型參數(shù),實現(xiàn)計算效率和精度的有效折衷;Burg算法建立了前向和后向線性預測系數(shù)之間的遞推關系,能夠使預測誤差的功率之和達到最小[9]。
(4) 評價預測結果:AR模型預測完畢后,需要對預測結果進行評價。預測精度表示為預測結果與實際情況的差別程度,可以用誤差指標反映預測精度,通常誤差越大預測精度越低[10]。計算預測結果的標準差公式如下
(10)
其中xi表示預測結果的第i個值,表示預測結果的估計均值。如果預測結果的相對誤差小于3%,則可以認為預測誤差在允許范圍之內。
(5) 預測結果的分析決策:比較預測結果與人工免疫網絡的聚類結果,計算預測結果偏離聚類中心程度。如果計算偏差小于某個閾值,則表明復雜系統(tǒng)在未來時刻的工作狀況保持不變;如果計算偏差大于某個閾值,則表明復雜系統(tǒng)的工作狀況在未來時刻將會發(fā)生改變,應該提前除采取某種有效措施,以應對可能出現(xiàn)的工作狀況。預測結果與聚類中心的比較結果,可以為實施系統(tǒng)綜合健康管理提供必要的決策依據(jù)。
5 仿真實驗及結果分析
在仿真實驗中,選擇工程實踐中常用的指數(shù)形式、常數(shù)形式和多項式形式的三種信號作為原始信號,選擇高斯白噪聲作為干擾信號。選用MATLAB 7.1作為仿真實驗平臺,選取第2節(jié)論述的人工免疫算法實現(xiàn)數(shù)據(jù)聚類,選擇第3節(jié)論述的AR模型實現(xiàn)數(shù)據(jù)預測。
圖2 原始序列圖形
原始含噪聲數(shù)據(jù)的波形如圖2所示,從上至下依次是指數(shù)形式、常數(shù)形式和多項式形式,數(shù)據(jù)有效長度為 ,原始數(shù)據(jù)中疊加的高斯白噪聲符合 分布。在基于人工免疫網絡的數(shù)據(jù)聚類過程中,線性歸一化的原始數(shù)據(jù)作為抗原輸入人工免疫網絡,設置抑制閾值 ,最大循環(huán)代數(shù)為 ,記憶細胞規(guī)模為 ,其中的10次數(shù)據(jù)聚類結果如表1所示。
表1 人工免疫網絡的聚類結果
如果將表1所示的10次實驗均值作為聚類中心,則可以發(fā)現(xiàn),它們大致位于各組數(shù)據(jù)的幾何中心,同時也表明聚類結果的穩(wěn)定可靠。
采用AR模型對原始數(shù)據(jù)進行預測時,通過試算法得出指數(shù)形式數(shù)據(jù)的AR模型為5階,常數(shù)形式數(shù)據(jù)的AR模型為6階,多項式形式數(shù)據(jù)的AR模型為11階,預測誤差如圖3所示。
根據(jù)圖3所示的預測誤差可以看出,隨著時間的推移,預測結果的誤差逐漸增大,并逐漸偏離數(shù)據(jù)中心,其中常數(shù)類型數(shù)據(jù)的預測誤差最小,多項式類型數(shù)據(jù)的預測誤差最大。
圖3預測結果誤差 (a)指數(shù)形式數(shù)據(jù) (b)常數(shù)形式數(shù)據(jù) (c)多項式形式數(shù)據(jù)
6 結論
本文面向復雜系統(tǒng)綜合健康管理對數(shù)據(jù)聚類和數(shù)據(jù)預測實際需求,充分利用人工免疫網絡和AR模型的各自優(yōu)勢,提出了基于人工免疫網絡和AR模型相結合的數(shù)據(jù)聚類和預測算法,并針對三種形式的原始數(shù)據(jù)進行了仿真實驗,實驗結果初步驗證了所提出算法的可行性和有效性。本文提出的算法具有較強的通用性、適應性、魯棒性,如何有效地提高聚類精度和預測準確性將是繼續(xù)深入研究的內容。