基于多元協(xié)變量和隨機(jī)森林算法的寧夏用電量預(yù)測

時間：2022-03-20 23:44:10

關(guān)鍵字：隨機(jī)森林用電量預(yù)測精度

手機(jī)看文章

掃描二維碼
隨時隨地手機(jī)看文章

[導(dǎo)讀]摘要:以2000一2010年寧夏用電量相關(guān)資料為基礎(chǔ),提取用電量的影響因子,并于Rstudio平臺構(gòu)建基于隨機(jī)森林算法(RF）的預(yù)測模型,對2012一2017年用電量進(jìn)行預(yù)測驗證。結(jié)果表明,模型輸出值與實際值相吻合,訓(xùn)練誤差與預(yù)測平均誤差分別為7.02億kw·h、9.20億kw·h,該算法模型有效。對比可知,RF模型的MAE、RMSE(9.20億kw·h、10.57億kw·h）小于RBF(13.24億kw·h、14.04億kw·h）和SVM(22.39億kw·h、25.57億kw·h）模型,基于RF的用電預(yù)測模型效果更優(yōu)。另外,RF能夠準(zhǔn)確計算預(yù)測因子的重要性,這對于變量篩選具有重要意義。

引言

電力資源是社會經(jīng)濟(jì)與民生發(fā)展的戰(zhàn)略支撐性資源之一,電網(wǎng)系統(tǒng)面向全國各種用電用戶提供可變的標(biāo)準(zhǔn)電能。由于當(dāng)前各行各業(yè)對電能的依賴性增強,加之居民生活水平提高產(chǎn)生了更大的電能消費需求,用電量具有多結(jié)構(gòu)化、變化復(fù)雜的特點,這對準(zhǔn)確預(yù)測用電量提出了挑戰(zhàn)。用電量預(yù)測能為電力供需負(fù)荷平衡、電力供應(yīng)調(diào)配提供信息基礎(chǔ),對減少供電成本、提高電能質(zhì)量具有重要意義。

近年來,隨機(jī)森林方法在分類和回歸問題中得到了廣泛應(yīng)用,該算法能處理高維數(shù)據(jù),并檢測維度間的相互關(guān)系,通過自主學(xué)習(xí)、高維映射、容錯、記憶等手段大量挖掘隱含信息,得出用電量變化的內(nèi)在規(guī)律。

鑒于此,本文以寧夏用電量為算例,采用RF方法構(gòu)建電量預(yù)測模型,并檢驗該模型的優(yōu)越性,以期為電力大數(shù)據(jù)挖掘和智能電網(wǎng)建設(shè)提供參考依據(jù)。

1算法原理

1.1隨機(jī)森林原理

隨機(jī)森林(RandomForest,RF）是集成多棵決策樹模型(h(X,9k),k=1,2,…）而形成的融合算法[5]。該算法借助隨機(jī)子空間和自助聚集理論,運用bootstrap方法從全部特征變量屬性中進(jìn)行隨機(jī)等概率地放回抽樣,對每個bootstrap樣本構(gòu)建決策樹,通過打分尋找得分最高結(jié)果作為分類或回歸的結(jié)果。其先利用bootstrap抽樣從原始訓(xùn)練集7=((x1,y1),(x2,y2),…,(xn,yn)）中抽取n個樣本,記作訓(xùn)練集7t,進(jìn)行k次抽樣,則有k個獨立樣本形成的訓(xùn)練集(7t,t=1,2,…,k）。然后對各bootstrap訓(xùn)練集構(gòu)建決策樹組合模型,對于單棵樹,從隨機(jī)選擇的m個屬性中選出最優(yōu)屬性進(jìn)行分裂。生成的單棵樹模型即為獨立領(lǐng)域的專家,組合k棵樹中得分最高的類別即為預(yù)測的結(jié)果。

1.2多元協(xié)變量獲取

單純以歷史用電量信息作為前向預(yù)測的依據(jù),在模型迭代過程中其依賴的信息較少,可能會損失局部預(yù)測的細(xì)節(jié)信息,進(jìn)而影響模型精度。而采用多元協(xié)變量為輸入變量,以不同維度因子的變化特征描述用電量的時序變化趨勢,既能夠保證模型預(yù)測所需要的豐富的特征信息,還能夠確保模型穩(wěn)定性。結(jié)合前人的研究經(jīng)驗,從經(jīng)濟(jì)發(fā)展、人口、社會需求、自然環(huán)境等方面考慮,給出了相關(guān)的備選變量,如表1所示。

1.3數(shù)據(jù)來源與處理

指標(biāo)數(shù)據(jù)的時間域為2000一2017年,從《寧夏統(tǒng)計年鑒》和《中國統(tǒng)計年鑒》中提取指標(biāo)原始數(shù)據(jù)(表1)。采用MicrosoftExce12016軟件進(jìn)行數(shù)據(jù)整理,Rstudio1.0進(jìn)行建模預(yù)測分析,采用絕對平均誤差(MAE)和均方根誤差(RMSE)對模型精度進(jìn)行評價。

2應(yīng)用實例

2.1變量設(shè)置與參數(shù)優(yōu)選

以2000一2011年的數(shù)據(jù)為訓(xùn)練樣本,2012一2017年的數(shù)據(jù)為檢測樣本,兩類樣本中解釋變量作為輸入值,用電量數(shù)據(jù)作為輸出值,在Rstudio1.0平臺上調(diào)用RandomForest程序包進(jìn)行編程實現(xiàn)。RF模型存在ntree和mtry兩個敏感參數(shù),其中ntree影響著模型泛化、收斂速率,mtry主要對節(jié)點分裂屬性賦值起重要作用。通常認(rèn)為,mtry最優(yōu)取值為變量的方根值,而ntree的篩選通常采用網(wǎng)格搜索法進(jìn)行。多次試驗表明,mtry為5時模型錯誤率相對較小,進(jìn)而確定mtry為5。隨著ntree的變化,模型錯誤率表現(xiàn)如圖1所示,可知當(dāng)其為200以后,模型錯誤率較小而平穩(wěn),遂設(shè)置ntree為500。

2.2預(yù)測結(jié)果與精度比較

圖2和表2分別為RF算法計算得到的訓(xùn)練和測試樣本的預(yù)測結(jié)果,為比較算法優(yōu)越性,另使用RBF(徑向基神經(jīng)網(wǎng)絡(luò)）、SVM(支持向量機(jī)）實施建模預(yù)測。由圖可知,3種不同算法均能夠較好擬合用電量變化,訓(xùn)練樣本各年份用電量預(yù)測的MAE介于2.33～45.38億kw·h之間,表明訓(xùn)練模型精度可靠。訓(xùn)練模型統(tǒng)計顯示,RF、SVM、RBF訓(xùn)練模型的MAE依次為7.02億kw·h、7.72億kw·h、8.86億kw·h。測試結(jié)果表明,基于RF的預(yù)測結(jié)果最優(yōu),其MAE僅為9.20億kw·h,RMSE為10.57億kw·h,而基于SVM和RBF的預(yù)測結(jié)果的MAE和RMSE分別為22.39億kw·h、25.57億kw·h和13.24億kw·h、14.04億kw·h。綜合來看,基于RF的用電量預(yù)測模型精度高、預(yù)測效果良好。

2.3解釋變量重要性分析

RF算法通過袋外數(shù)據(jù)的誤差表征變量特征,其值越大,表明該變量對模型的重要性越大。由圖3可知,平均氣溫、雨日數(shù)、人均GDP、工業(yè)產(chǎn)值電耗、人均用電量、第一產(chǎn)業(yè)用電量、GDP的分值最大,其重要性分值在4～5.53之間,表明其對模型精度具有重要影響:無霜期、極端低溫天數(shù)、8月份平均氣溫、第三產(chǎn)業(yè)用電總量、1月份相對濕度和第二產(chǎn)業(yè)用電總量的重要性分值最小,介于0～1.03之間,說明其對模型增益效果較低:其他變量的重要性分值介于2～4之間,它們對模型精度的影響性一般。