基于多元協(xié)變量和隨機(jī)森林算法的寧夏用電量預(yù)測(cè)
引言
電力資源是社會(huì)經(jīng)濟(jì)與民生發(fā)展的戰(zhàn)略支撐性資源之一,電網(wǎng)系統(tǒng)面向全國(guó)各種用電用戶提供可變的標(biāo)準(zhǔn)電能。由于當(dāng)前各行各業(yè)對(duì)電能的依賴性增強(qiáng),加之居民生活水平提高產(chǎn)生了更大的電能消費(fèi)需求,用電量具有多結(jié)構(gòu)化、變化復(fù)雜的特點(diǎn),這對(duì)準(zhǔn)確預(yù)測(cè)用電量提出了挑戰(zhàn)。用電量預(yù)測(cè)能為電力供需負(fù)荷平衡、電力供應(yīng)調(diào)配提供信息基礎(chǔ),對(duì)減少供電成本、提高電能質(zhì)量具有重要意義。
近年來(lái),隨機(jī)森林方法在分類和回歸問(wèn)題中得到了廣泛應(yīng)用,該算法能處理高維數(shù)據(jù),并檢測(cè)維度間的相互關(guān)系,通過(guò)自主學(xué)習(xí)、高維映射、容錯(cuò)、記憶等手段大量挖掘隱含信息,得出用電量變化的內(nèi)在規(guī)律。
鑒于此,本文以寧夏用電量為算例,采用RF方法構(gòu)建電量預(yù)測(cè)模型,并檢驗(yàn)該模型的優(yōu)越性,以期為電力大數(shù)據(jù)挖掘和智能電網(wǎng)建設(shè)提供參考依據(jù)。
1算法原理
1.1隨機(jī)森林原理
隨機(jī)森林(RandomForest,RF)是集成多棵決策樹(shù)模型(h(X,9k),k=1,2,…)而形成的融合算法[5]。該算法借助隨機(jī)子空間和自助聚集理論,運(yùn)用bootstrap方法從全部特征變量屬性中進(jìn)行隨機(jī)等概率地放回抽樣,對(duì)每個(gè)bootstrap樣本構(gòu)建決策樹(shù),通過(guò)打分尋找得分最高結(jié)果作為分類或回歸的結(jié)果。其先利用bootstrap抽樣從原始訓(xùn)練集7=((x1,y1),(x2,y2),…,(xn,yn))中抽取n個(gè)樣本,記作訓(xùn)練集7l,進(jìn)行k次抽樣,則有k個(gè)獨(dú)立樣本形成的訓(xùn)練集(7l,l=1,2,…,k)。然后對(duì)各bootstrap訓(xùn)練集構(gòu)建決策樹(shù)組合模型,對(duì)于單棵樹(shù),從隨機(jī)選擇的m個(gè)屬性中選出最優(yōu)屬性進(jìn)行分裂。生成的單棵樹(shù)模型即為獨(dú)立領(lǐng)域的專家,組合k棵樹(shù)中得分最高的類別即為預(yù)測(cè)的結(jié)果。
1.2多元協(xié)變量獲取
單純以歷史用電量信息作為前向預(yù)測(cè)的依據(jù),在模型迭代過(guò)程中其依賴的信息較少,可能會(huì)損失局部預(yù)測(cè)的細(xì)節(jié)信息,進(jìn)而影響模型精度。而采用多元協(xié)變量為輸入變量,以不同維度因子的變化特征描述用電量的時(shí)序變化趨勢(shì),既能夠保證模型預(yù)測(cè)所需要的豐富的特征信息,還能夠確保模型穩(wěn)定性。結(jié)合前人的研究經(jīng)驗(yàn),從經(jīng)濟(jì)發(fā)展、人口、社會(huì)需求、自然環(huán)境等方面考慮,給出了相關(guān)的備選變量,如表1所示。
1.3數(shù)據(jù)來(lái)源與處理
指標(biāo)數(shù)據(jù)的時(shí)間域?yàn)?000一2017年,從《寧夏統(tǒng)計(jì)年鑒》和《中國(guó)統(tǒng)計(jì)年鑒》中提取指標(biāo)原始數(shù)據(jù)(表1)。采用MicrosoftExcel2016軟件進(jìn)行數(shù)據(jù)整理,Rstudio1.0進(jìn)行建模預(yù)測(cè)分析,采用絕對(duì)平均誤差(MAE)和均方根誤差(RMsE)對(duì)模型精度進(jìn)行評(píng)價(jià)。
2應(yīng)用實(shí)例
2.1變量設(shè)置與參數(shù)優(yōu)選
以2000一2011年的數(shù)據(jù)為訓(xùn)練樣本,2012一2017年的數(shù)據(jù)為檢測(cè)樣本,兩類樣本中解釋變量作為輸入值,用電量數(shù)據(jù)作為輸出值,在Rstudio1.0平臺(tái)上調(diào)用RandomForest程序包進(jìn)行編程實(shí)現(xiàn)。RF模型存在nlree和mlry兩個(gè)敏感參數(shù),其中nlree影響著模型泛化、收斂速率,mlry主要對(duì)節(jié)點(diǎn)分裂屬性賦值起重要作用。通常認(rèn)為,mlry最優(yōu)取值為變量的方根值,而nlree的篩選通常采用網(wǎng)格搜索法進(jìn)行。多次試驗(yàn)表明,mlry為5時(shí)模型錯(cuò)誤率相對(duì)較小,進(jìn)而確定mlry為5。隨著nlree的變化,模型錯(cuò)誤率表現(xiàn)如圖1所示,可知當(dāng)其為200以后,模型錯(cuò)誤率較小而平穩(wěn),遂設(shè)置nlree為500。
2.2預(yù)測(cè)結(jié)果與精度比較
圖2和表2分別為RF算法計(jì)算得到的訓(xùn)練和測(cè)試樣本的預(yù)測(cè)結(jié)果,為比較算法優(yōu)越性,另使用RBF(徑向基神經(jīng)網(wǎng)絡(luò))、sVM(支持向量機(jī))實(shí)施建模預(yù)測(cè)。由圖可知,3種不同算法均能夠較好擬合用電量變化,訓(xùn)練樣本各年份用電量預(yù)測(cè)的MAE介于2.33~45.38億kw·h之間,表明訓(xùn)練模型精度可靠。訓(xùn)練模型統(tǒng)計(jì)顯示,RF、sVM、RBF訓(xùn)練模型的MAE依次為7.02億kw·h、7.72億kw·h、8.86億kw·h。測(cè)試結(jié)果表明,基于RF的預(yù)測(cè)結(jié)果最優(yōu),其MAE僅為9.20億kw·h,RMsE為10.57億kw·h,而基于sVM和RBF的預(yù)測(cè)結(jié)果的MAE和RMsE分別為22.39億kw·h、25.57億kw·h和13.24億kw·h、14.04億kw·h。綜合來(lái)看,基于RF的用電量預(yù)測(cè)模型精度高、預(yù)測(cè)效果良好。
2.3解釋變量重要性分析
RF算法通過(guò)袋外數(shù)據(jù)的誤差表征變量特征,其值越大,表明該變量對(duì)模型的重要性越大[5]。由圖3可知,平均氣溫、雨日數(shù)、人均GDP、工業(yè)產(chǎn)值電耗、人均用電量、第一產(chǎn)業(yè)用電量、GDP的分值最大,其重要性分值在4~5.53之間,表明其對(duì)模型精度具有重要影響:無(wú)霜期、極端低溫天數(shù)、8月份平均氣溫、第三產(chǎn)業(yè)用電總量、1月份相對(duì)濕度和第二產(chǎn)業(yè)用電總量的重要性分值最小,介于0~1.03之間,說(shuō)明其對(duì)模型增益效果較低:其他變量的重要性分值介于2~4之間,它們對(duì)模型精度的影響性一般。
3結(jié)論
以多元協(xié)變量為基礎(chǔ)構(gòu)建中長(zhǎng)期用電量的預(yù)測(cè)模型,根據(jù)模型運(yùn)行結(jié)果,得出結(jié)論如下:
(1)RF算法能夠較好地?cái)M合2000一2017年寧夏年度用電量變化,訓(xùn)練誤差與預(yù)測(cè)誤差均較小、精度可靠,表明預(yù)測(cè)方案應(yīng)用性較好:
(2)多元協(xié)變量之間關(guān)聯(lián)復(fù)雜,而RF能排除多維數(shù)組間共線性影響,擬合其與用電量之間的線性、非線性關(guān)系,并識(shí)別各協(xié)變量對(duì)模型精度的影響:
(3)隨機(jī)森林集合了多個(gè)弱分類器,較于傳統(tǒng)RBF和sVM算法其具有一定的優(yōu)勢(shì),在建模過(guò)程中模型參量調(diào)試簡(jiǎn)易,模型穩(wěn)定性高。