引言
電力資源是社會經濟與民生發(fā)展的戰(zhàn)略支撐性資源之一,電網系統(tǒng)面向全國各種用電用戶提供可變的標準電能。由于當前各行各業(yè)對電能的依賴性增強,加之居民生活水平提高產生了更大的電能消費需求,用電量具有多結構化、變化復雜的特點,這對準確預測用電量提出了挑戰(zhàn)。用電量預測能為電力供需負荷平衡、電力供應調配提供信息基礎,對減少供電成本、提高電能質量具有重要意義。
近年來,隨機森林方法在分類和回歸問題中得到了廣泛應用,該算法能處理高維數據,并檢測維度間的相互關系,通過自主學習、高維映射、容錯、記憶等手段大量挖掘隱含信息,得出用電量變化的內在規(guī)律。
鑒于此,本文以寧夏用電量為算例,采用RF方法構建電量預測模型,并檢驗該模型的優(yōu)越性,以期為電力大數據挖掘和智能電網建設提供參考依據。
1算法原理
1.1隨機森林原理
隨機森林(RandomForest,RF)是集成多棵決策樹模型(h(X,9k),k=1,2,…)而形成的融合算法[5]。該算法借助隨機子空間和自助聚集理論,運用bootstrap方法從全部特征變量屬性中進行隨機等概率地放回抽樣,對每個bootstrap樣本構建決策樹,通過打分尋找得分最高結果作為分類或回歸的結果。其先利用bootstrap抽樣從原始訓練集7=((x1,y1),(x2,y2),…,(xn,yn))中抽取n個樣本,記作訓練集7t,進行k次抽樣,則有k個獨立樣本形成的訓練集(7t,t=1,2,…,k)。然后對各bootstrap訓練集構建決策樹組合模型,對于單棵樹,從隨機選擇的m個屬性中選出最優(yōu)屬性進行分裂。生成的單棵樹模型即為獨立領域的專家,組合k棵樹中得分最高的類別即為預測的結果。
1.2多元協(xié)變量獲取
單純以歷史用電量信息作為前向預測的依據,在模型迭代過程中其依賴的信息較少,可能會損失局部預測的細節(jié)信息,進而影響模型精度。而采用多元協(xié)變量為輸入變量,以不同維度因子的變化特征描述用電量的時序變化趨勢,既能夠保證模型預測所需要的豐富的特征信息,還能夠確保模型穩(wěn)定性。結合前人的研究經驗,從經濟發(fā)展、人口、社會需求、自然環(huán)境等方面考慮,給出了相關的備選變量,如表1所示。
1.3數據來源與處理
指標數據的時間域為2000一2017年,從《寧夏統(tǒng)計年鑒》和《中國統(tǒng)計年鑒》中提取指標原始數據(表1)。采用MicrosoftExce12016軟件進行數據整理,Rstudio1.0進行建模預測分析,采用絕對平均誤差(MAE)和均方根誤差(RMSE)對模型精度進行評價。
2應用實例
2.1變量設置與參數優(yōu)選
以2000一2011年的數據為訓練樣本,2012一2017年的數據為檢測樣本,兩類樣本中解釋變量作為輸入值,用電量數據作為輸出值,在Rstudio1.0平臺上調用RandomForest程序包進行編程實現(xiàn)。RF模型存在ntree和mtry兩個敏感參數,其中ntree影響著模型泛化、收斂速率,mtry主要對節(jié)點分裂屬性賦值起重要作用。通常認為,mtry最優(yōu)取值為變量的方根值,而ntree的篩選通常采用網格搜索法進行。多次試驗表明,mtry為5時模型錯誤率相對較小,進而確定mtry為5。隨著ntree的變化,模型錯誤率表現(xiàn)如圖1所示,可知當其為200以后,模型錯誤率較小而平穩(wěn),遂設置ntree為500。
2.2預測結果與精度比較
圖2和表2分別為RF算法計算得到的訓練和測試樣本的預測結果,為比較算法優(yōu)越性,另使用RBF(徑向基神經網絡)、SVM(支持向量機)實施建模預測。由圖可知,3種不同算法均能夠較好擬合用電量變化,訓練樣本各年份用電量預測的MAE介于2.33~45.38億kw·h之間,表明訓練模型精度可靠。訓練模型統(tǒng)計顯示,RF、SVM、RBF訓練模型的MAE依次為7.02億kw·h、7.72億kw·h、8.86億kw·h。測試結果表明,基于RF的預測結果最優(yōu),其MAE僅為9.20億kw·h,RMSE為10.57億kw·h,而基于SVM和RBF的預測結果的MAE和RMSE分別為22.39億kw·h、25.57億kw·h和13.24億kw·h、14.04億kw·h。綜合來看,基于RF的用電量預測模型精度高、預測效果良好。
2.3解釋變量重要性分析
RF算法通過袋外數據的誤差表征變量特征,其值越大,表明該變量對模型的重要性越大。由圖3可知,平均氣溫、雨日數、人均GDP、工業(yè)產值電耗、人均用電量、第一產業(yè)用電量、GDP的分值最大,其重要性分值在4~5.53之間,表明其對模型精度具有重要影響:無霜期、極端低溫天數、8月份平均氣溫、第三產業(yè)用電總量、1月份相對濕度和第二產業(yè)用電總量的重要性分值最小,介于0~1.03之間,說明其對模型增益效果較低:其他變量的重要性分值介于2~4之間,它們對模型精度的影響性一般。
3結論
以多元協(xié)變量為基礎構建中長期用電量的預測模型,根據模型運行結果,得出結論如下:
(1)RF算法能夠較好地擬合2000一2017年寧夏年度用電量變化,訓練誤差與預測誤差均較小、精度可靠,表明預測方案應用性較好:
(2)多元協(xié)變量之間關聯(lián)復雜,而RF能排除多維數組間共線性影響,擬合其與用電量之間的線性、非線性關系,并識別各協(xié)變量對模型精度的影響:
(3)隨機森林集合了多個弱分類器,較于傳統(tǒng)RBF和SVM算法其具有一定的優(yōu)勢,在建模過程中模型參量調試簡易,模型穩(wěn)定性高。