基于人工免疫網絡和AR模型的聚類與預測算法

時間：2009-04-03 13:47:06

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]1 引言人工免疫系統(tǒng)是在生物免疫系統(tǒng)理論的基礎上發(fā)展起來的，是利用生物免疫原理和思想建立的人工模型，具有多樣性、分布性、動態(tài)性、魯棒性等特點。人工免疫系統(tǒng)可以解決模式識別、數(shù)據(jù)挖掘、故障診斷、信

1 引言

人工免疫系統(tǒng)是在生物免疫系統(tǒng)理論的基礎上發(fā)展起來的，是利用生物免疫原理和思想建立的人工模型，具有多樣性、分布性、動態(tài)性、魯棒性等特點。人工免疫系統(tǒng)可以解決模式識別、數(shù)據(jù)挖掘、故障診斷、信息安全、優(yōu)化計算等領域的諸多問題，已經成為繼神經網絡、模糊邏輯和演化計算之后的熱點研究內容[1-3]。

人工免疫網絡（aiNet）是利用免疫理論中的克隆選擇、親和力成熟和免疫網絡理論等構建的網絡模型。作為人工免疫系統(tǒng)范疇內的重要應用模型，它具有噪聲耐受、無教師學習、自組織等優(yōu)點，受到了國內外學者的廣泛關注，研究成果涉及數(shù)據(jù)處理、優(yōu)化學習和故障診斷等領域。

自回歸模型（AR模型）具有線性體系結構，和ARMA模型相比，求解方法和實現(xiàn)手段更為系統(tǒng)和有效。AR模型的理論完善、實現(xiàn)簡單、抗干擾能力強，使得它在數(shù)據(jù)分析與系統(tǒng)建模等很多學科占有重要的地位，廣泛應用于特征提取、參數(shù)估計、頻譜估計、系統(tǒng)建模、時間序列分析與預測等工程技術領域。

對復雜系統(tǒng)實施綜合健康管理，需要實時監(jiān)測系統(tǒng)的運行狀況。如果存在運行歷史數(shù)據(jù)和經驗信息，則通過比較實時獲取數(shù)據(jù)和歷史經驗信息，可以確定復雜系統(tǒng)的當前工作狀態(tài)；以此同時，為了避免災難性事故發(fā)生，需要根據(jù)系統(tǒng)當前工作狀況和歷史信息，預測系統(tǒng)未來時刻的運行情況，以便在系統(tǒng)出現(xiàn)故障之前采取必要的措施，將經濟損失降低到最小程度。

復雜系統(tǒng)的結構復雜、子系統(tǒng)數(shù)目多、組件分布廣泛、影響因素多樣，單純地采用傳統(tǒng)方法確定系統(tǒng)運行狀況和預測未來工作狀態(tài)相對困難。人工智能和演化計算領域的飛速發(fā)展，為解決該問題提供了嶄新的途徑。本文將充分利用人工免疫網絡的分布性、記憶性和魯棒性的特點，與基于AR模型的預測方法相結合，面向復雜系統(tǒng)綜合健康管理的實際需求，研究基于人工免疫網絡和AR模型的數(shù)據(jù)聚類與預測方法，為實施系統(tǒng)綜合健康管理進行有益的探討。

2 人工免疫網絡

Jerne在1974年首次提出了免疫網絡理論，并給出抗原和抗體的網絡識別機制[4]。免疫系統(tǒng)能夠辨別“自我”和“非我”，并通過免疫應答機制排除“非我”；免疫系統(tǒng)的初次應答保存了抗原的信息，當再次遇到相同或者相似的抗原時，會迅速引發(fā)二次應答過程，有效地排除“非我”。

在生物免疫理論的基礎上，De Castro和Von Zuben等提出了人工免疫網絡（aiNet）模型[5]，它根據(jù)抗體和抗原之間的親和力來確定保留或者剪除求解邊界和節(jié)點，以獲得人工免疫網絡結構（即記憶抗體）。作為抗原內映像的記憶抗體用于檢驗新的抗原，并決定是否啟動二次免疫應答。人工免疫網絡算法流程如下[3]：

3 AR模型概述

4 基于人工免疫網絡和AR模型的數(shù)據(jù)聚類和預測

4.1 聚類和預測算法結構

面向復雜系統(tǒng)綜合健康管理的實際需求，充分利用人工免疫網絡性和自回歸模型的各自優(yōu)勢，實現(xiàn)數(shù)據(jù)的聚類與預測功能的算法體系結構如圖1所示。

在圖1中，首先對獲取的原始數(shù)據(jù)進行歸一化處理，然后采用人工免疫網絡對規(guī)范化的數(shù)據(jù)進行有效地聚類，并根據(jù)聚類結果和復雜系統(tǒng)的歷史信息，判定運行系統(tǒng)所處的狀態(tài)。與此同時，選擇合適的自回歸模型（AR模型），對獲取數(shù)據(jù)的發(fā)展趨勢進行預測，并對預測結果進行規(guī)范化處理，最后依據(jù)聚類結果劃分預測結果類別，確定系統(tǒng)未來時刻所處的狀態(tài)，以此作為是否需要對系統(tǒng)運行采取干預措施的決策依據(jù)。

圖1數(shù)據(jù)聚類與預測算法的體系結構

4.2 聚類和預測算法實現(xiàn)

　　(1) 歸一化原始數(shù)據(jù)：在使用人工免疫網絡進行數(shù)據(jù)聚類時，為了提高數(shù)據(jù)的利用效率和簡化計算，需要對數(shù)據(jù)進行歸一化處理[8]。本文采用線性規(guī)范方法，將原始數(shù)據(jù)的取值范圍規(guī)范化到[0,1]之內，實現(xiàn)方法如下
(9)

　　其中xi 是原始數(shù)據(jù)中第i個數(shù)據(jù), xmin和xmax分別是最小值和最大值，是歸一化的結果。

　　(2) 數(shù)據(jù)的聚類方法：使用人工免疫網絡進行數(shù)據(jù)聚類時，設置合理的免疫網絡參數(shù)非常重要。作為聚類過程最重要的參數(shù)，抑制閾值決定了記憶細胞特異水平、聚類準確性和網絡可塑性。通常值越大，記憶細胞矩陣的最終規(guī)模越小。在實現(xiàn)數(shù)據(jù)聚類過程中，可以預先設置較小的值，然后通過改變步長進行微調，直至獲得最好聚類效果為止。為了避免聚類結果的偶然性，可以將多次聚類結果的平均值作為最終結果。

　　在實現(xiàn)數(shù)據(jù)聚類過程中，采用基于邊界加權圖的最小生成樹描述和檢測最終的聚類結構，包括聚類中心和類間距離?？乖ㄟ^人工免疫網絡后產生記憶細胞矩陣，在已知類別數(shù)目條件下,利用記憶細胞網絡的最小生成樹實現(xiàn)自動歸類并計算類的中心。終止聚類條件包括：1）迭代過程達到預定次數(shù)；2）免疫網絡達到預定的細胞數(shù)；3）抗原和記憶細胞的親和度達到預定閾值。

　　(3) 確定AR模型：為了降低噪聲的影響，需要對原始數(shù)據(jù)進行滑動平均降噪，并建立AR模型和實施前向數(shù)據(jù)預測。可以采用試算法確定AR模型階數(shù)，即選取預測精度最高模型的階數(shù)；可以采用Burg算法估計AR模型參數(shù)，實現(xiàn)計算效率和精度的有效折衷；Burg算法建立了前向和后向線性預測系數(shù)之間的遞推關系，能夠使預測誤差的功率之和達到最小[9]。

　　(4) 評價預測結果：AR模型預測完畢后，需要對預測結果進行評價。預測精度表示為預測結果與實際情況的差別程度，可以用誤差指標反映預測精度，通常誤差越大預測精度越低[10]。計算預測結果的標準差公式如下
(10)

　　其中xi表示預測結果的第i個值，表示預測結果的估計均值。如果預測結果的相對誤差小于3%，則可以認為預測誤差在允許范圍之內。

　　(5) 預測結果的分析決策：比較預測結果與人工免疫網絡的聚類結果，計算預測結果偏離聚類中心程度。如果計算偏差小于某個閾值，則表明復雜系統(tǒng)在未來時刻的工作狀況保持不變；如果計算偏差大于某個閾值，則表明復雜系統(tǒng)的工作狀況在未來時刻將會發(fā)生改變，應該提前除采取某種有效措施，以應對可能出現(xiàn)的工作狀況。預測結果與聚類中心的比較結果，可以為實施系統(tǒng)綜合健康管理提供必要的決策依據(jù)。

5 仿真實驗及結果分析

在仿真實驗中，選擇工程實踐中常用的指數(shù)形式、常數(shù)形式和多項式形式的三種信號作為原始信號，選擇高斯白噪聲作為干擾信號。選用MATLAB 7.1作為仿真實驗平臺，選取第2節(jié)論述的人工免疫算法實現(xiàn)數(shù)據(jù)聚類，選擇第3節(jié)論述的AR模型實現(xiàn)數(shù)據(jù)預測。

圖2 原始序列圖形

原始含噪聲數(shù)據(jù)的波形如圖2所示，從上至下依次是指數(shù)形式、常數(shù)形式和多項式形式，數(shù)據(jù)有效長度為，原始數(shù)據(jù)中疊加的高斯白噪聲符合分布。在基于人工免疫網絡的數(shù)據(jù)聚類過程中，線性歸一化的原始數(shù)據(jù)作為抗原輸入人工免疫網絡，設置抑制閾值，最大循環(huán)代數(shù)為，記憶細胞規(guī)模為，其中的10次數(shù)據(jù)聚類結果如表1所示。

表1 人工免疫網絡的聚類結果

如果將表1所示的10次實驗均值作為聚類中心，則可以發(fā)現(xiàn)，它們大致位于各組數(shù)據(jù)的幾何中心，同時也表明聚類結果的穩(wěn)定可靠。

采用AR模型對原始數(shù)據(jù)進行預測時，通過試算法得出指數(shù)形式數(shù)據(jù)的AR模型為5階，常數(shù)形式數(shù)據(jù)的AR模型為6階，多項式形式數(shù)據(jù)的AR模型為11階，預測誤差如圖3所示。

根據(jù)圖3所示的預測誤差可以看出，隨著時間的推移，預測結果的誤差逐漸增大，并逐漸偏離數(shù)據(jù)中心，其中常數(shù)類型數(shù)據(jù)的預測誤差最小，多項式類型數(shù)據(jù)的預測誤差最大。

圖3預測結果誤差 (a)指數(shù)形式數(shù)據(jù) (b)常數(shù)形式數(shù)據(jù) (c)多項式形式數(shù)據(jù)

６結論

本文面向復雜系統(tǒng)綜合健康管理對數(shù)據(jù)聚類和數(shù)據(jù)預測實際需求，充分利用人工免疫網絡和AR模型的各自優(yōu)勢，提出了基于人工免疫網絡和AR模型相結合的數(shù)據(jù)聚類和預測算法，并針對三種形式的原始數(shù)據(jù)進行了仿真實驗，實驗結果初步驗證了所提出算法的可行性和有效性。本文提出的算法具有較強的通用性、適應性、魯棒性，如何有效地提高聚類精度和預測準確性將是繼續(xù)深入研究的內容。