一文詳解?RNN?及股票預(yù)測實(shí)戰(zhàn)(Python)!
時(shí)間:2021-12-07 11:15:13
手機(jī)看文章
掃描二維碼
隨時(shí)隨地手機(jī)看文章
[導(dǎo)讀]作者|泳魚來源|算法進(jìn)階循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)是基于序列數(shù)據(jù)(如語言、語音、時(shí)間序列)的遞歸性質(zhì)而設(shè)計(jì)的,是一種反饋類型的神經(jīng)網(wǎng)絡(luò),其結(jié)構(gòu)包含環(huán)和自重復(fù),因此被稱為“循環(huán)”。它專門用于處理序列數(shù)據(jù),如逐字生成文本或預(yù)測時(shí)間序列數(shù)據(jù)(例如股票價(jià)格)。一、RNN網(wǎng)絡(luò)類型RNN以輸入數(shù)...
一、 RNN 網(wǎng)絡(luò)類型
RNN以輸入數(shù)m對應(yīng)輸出數(shù)n的不同,可以劃分為5種基礎(chǔ)結(jié)構(gòu)類型:
二、RNN原理
關(guān)于RNN模型,我們還是從數(shù)據(jù)、模型、學(xué)習(xí)目標(biāo)、優(yōu)化算法這幾個(gè)要素展開解析,使用過程需要重點(diǎn)關(guān)注的是其輸入和輸出的差異(本節(jié)以經(jīng)典的m==n的RNN結(jié)構(gòu)為例)。2.1 數(shù)據(jù)層面
不像傳統(tǒng)的機(jī)器學(xué)習(xí)模型假設(shè)輸入是獨(dú)立的,RNN的輸入數(shù)據(jù)元素有順序及相互依賴的,并按時(shí)間步逐一的串行輸入模型的。上一步的輸入對下一步的預(yù)測是有影響的(如文字預(yù)測的任務(wù),以“貓吃魚”這段序列文字,上一步的輸入“貓”--x(0)會(huì)影響下一步的預(yù)測“吃”--x(1)的概率,也會(huì)繼續(xù)影響下下步的預(yù)測“魚”--x(2)的概率),我們通過RNN結(jié)構(gòu)就可以將歷史的(上下文)的信息反饋到下一步。2.2 模型層面及前向傳播
上圖展開了兩個(gè)時(shí)間步t-1及t的計(jì)算過程;t取值為0~m(序列的長度);x(t)是t時(shí)間步的 輸入向量;U是 輸入層到隱藏層的權(quán)重矩陣; h(t)是t時(shí)間步 隱藏層的輸出狀態(tài)向量,能表征歷史輸入(上下文)的反饋信息;V是 隱藏層到輸出層的權(quán)重矩陣;b是 偏置項(xiàng);o(t)是t時(shí)間步 輸出層的輸出向量;
2.2.1 t 時(shí)間步的輸入過程
假設(shè)各時(shí)間步的狀態(tài)h的維度為2,h初始值為[0,0],輸入x和輸出o維度為1。將上一時(shí)刻的狀態(tài)h(t-1),與當(dāng)前時(shí)刻的輸入x(t)拼接成一維向量作為全連接的隱藏層的輸入,對應(yīng)隱藏層的的輸入維度為3 (如下圖的輸入部分)。
2.2.2 t時(shí)間步輸出h(t) 并反饋到下一步的過程
對應(yīng)到計(jì)算流程圖上,t-1時(shí)刻輸出的狀態(tài)h(t-1)為[0.537, 0.462],t時(shí)刻的輸入為[2.0],拼接之后為[0.537, 0.462, 2.0]輸入全連接的隱藏層,隱藏層的權(quán)重矩陣為[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]],偏置項(xiàng)b1為[0.1, -0.1],經(jīng)過隱藏層的矩陣運(yùn)算為:h(t-1)拼接x(t) * 權(quán)重參數(shù)W 拼接 權(quán)重矩陣U 偏置項(xiàng)(b1)再由tanh轉(zhuǎn)換后輸出為狀態(tài)h(t)。接著h(t)與x(t 1)繼續(xù)輸入到下一步(t 1)的隱藏層。# 隱藏層的矩陣運(yùn)算的對應(yīng)代碼np.tanh(np.dot(np.array([[0.537, 0.462, 2.0]]),np.array([[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]])) np.array([0.1, -0.1]))
# 輸出h(t)為:array([[0.85972772, 0.88365397]])
2.2.3 t時(shí)間步h(t) 到輸出o(t)的過程
隱藏層輸出狀態(tài)h(t)為[0.86, 0.884],輸出層權(quán)重矩陣為[[1.0], [2.0]],偏置項(xiàng)b1為[0.1], h(t)經(jīng)由輸出層的矩陣運(yùn)算為:h(t) * V 偏置項(xiàng)(b2)后,輸出o(t)# 輸出層的矩陣運(yùn)算的對應(yīng)代碼np.dot(np.array([[0.85972772, 0.88365397]]),np.array([[1.0], [2.0]])) np.array([0.1])
# o(t) 輸出: array([[2.72703566]])
上述過程從初始輸入(t=0)遍歷到序列結(jié)束(t=m),就是一個(gè)完整的前向傳播過程,我們可以看出權(quán)重矩陣、、和偏置項(xiàng)在不同時(shí)刻都是同一組,這也說明RNN在不同時(shí)刻中是共享參數(shù)的。可以將這RNN計(jì)算過程簡要概述為兩個(gè)公式:
狀態(tài)h(t) = f( U * x(t) W * h(t-1) b1), f為激活函數(shù),上圖隱藏層用的是tanh。隱藏層激活函數(shù)常用tanh、relu
輸出o(t) = g( V * h(t) b2),g為激活函數(shù),上圖輸出層做回歸預(yù)測,沒有用非線性激活函數(shù)。當(dāng)用于分類任務(wù),輸出層一般用softmax激活函數(shù)
2.3 學(xué)習(xí)目標(biāo)
RNN模型將輸入 x(t)序列映射到輸出值 o(t)后, 同全連接神經(jīng)網(wǎng)絡(luò)一樣,可以衡量每個(gè) o(t) 與相應(yīng)的訓(xùn)練目標(biāo) y 的誤差(如交叉熵、均方誤差)作為損失函數(shù),以最小化損失函數(shù)L(U,W,V)作為學(xué)習(xí)目標(biāo)(也可以稱為優(yōu)化策略)。
2.4 優(yōu)化算法
RNN的優(yōu)化過程與全連接神經(jīng)網(wǎng)絡(luò)沒有本質(zhì)區(qū)別,通過誤差反向傳播,多次迭代梯度下降優(yōu)化參數(shù),得到合適的RNN模型參數(shù) (此處忽略偏置項(xiàng)) 。區(qū)別在于RNN是基于時(shí)間反向傳播,所以RNN的反向傳播有時(shí)也叫做BPTT(back-propagation through time),BPTT會(huì)對不同時(shí)間步的梯度求和,由于所有的參數(shù)在序列的各個(gè)位置是共享的,反向傳播時(shí)我們更新的是相同的參數(shù)組。如下BPTT示意圖及U,W,V求導(dǎo)(梯度)的過程。
- RNN優(yōu)化的難點(diǎn)
2.5 RNN的局限性
- 上述展示的都是單向的 RNN,單向 RNN 有個(gè)缺點(diǎn)是在 t 時(shí)刻,無法使用 t 1 及之后時(shí)刻的序列信息,所以就有了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(bidirectional RNN)。
- 理論上RNN能夠利用任意長序列的信息,但是實(shí)際中它能記憶的長度是有限的,經(jīng)過一定的時(shí)間后將導(dǎo)致梯度爆炸或者梯度消失(如上節(jié)),即長期依賴(long-term dependencies)問題。一般的,使用傳統(tǒng)RNN常需要對序列限定個(gè)最大長度、設(shè)定梯度截?cái)嘁约耙龑?dǎo)信息流的正則化,或者使用門控RNN 如GRU、LSTM 以改善長期依賴問題。
三、 RNN預(yù)測股票
本項(xiàng)目通過創(chuàng)建單層隱藏層的RNN模型,輸入前60個(gè)交易日(時(shí)間步)股票開盤價(jià)的時(shí)間序列數(shù)據(jù),預(yù)測下一個(gè)(60 1)交易日的股票開盤價(jià)。
import matplotlib.pyplot as plt
import pandas as pd
#(本公眾號(hào)閱讀原文訪問數(shù)據(jù)集及源碼)
dataset_train = pd.read_csv('./data/NSE-TATAGLOBAL.csv')
dataset_train = dataset_train.sort_values(by='Date').reset_index(drop=True)
training_set = dataset_train.iloc[:, 1:2].values
print(dataset_train.shape)
dataset_train.head()
對訓(xùn)練數(shù)據(jù)進(jìn)行歸一化,加速網(wǎng)絡(luò)訓(xùn)練收斂。
from sklearn.preprocessing import MinMaxScaler
sc = MinMaxScaler(feature_range = (0, 1))
training_set_scaled = sc.fit_transform(training_set)
將數(shù)據(jù)整理為樣本及標(biāo)簽:60 timesteps and 1 output# 每條樣本含60個(gè)時(shí)間步,對應(yīng)下一時(shí)間步的標(biāo)簽值
X_train = []
y_train = []
for i in range(60, 2035):
X_train.append(training_set_scaled[i-60:i, 0])
y_train.append(training_set_scaled[i, 0])
X_train, y_train = np.array(X_train), np.array(y_train)
print(X_train.shape)
print(y_train.shape)
# Reshaping
X_train = np.reshape(X_train, (X_train.shape[0], X_train.shape[1], 1))
print(X_train.shape)
利用kera創(chuàng)建單隱藏層的RNN模型,并設(shè)定模型優(yōu)化算法adam, 目標(biāo)函數(shù)均方根MSE
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import SimpleRNN,LSTM
from keras.layers import Dropout
# 初始化順序模型
regressor = Sequential()
# 定義輸入層及帶5個(gè)神經(jīng)元的隱藏層
regressor.add(SimpleRNN(units = 5, input_shape = (X_train.shape[1], 1)))
# 定義線性的輸出層
regressor.add(Dense(units = 1))
# 模型編譯:定義優(yōu)化算法adam, 目標(biāo)函數(shù)均方根MSE
regressor.compile(optimizer = 'adam', loss = 'mean_squared_error')
# 模型訓(xùn)練
history = regressor.fit(X_train, y_train, epochs = 100, batch_size = 100, validation_split=0.1)
regressor.summary()
展示模型擬合的情況:訓(xùn)練集、驗(yàn)證集均有較低的loss
plt.plot(history.history['loss'],c='blue') # 藍(lán)色線訓(xùn)練集損失
plt.plot(history.history['val_loss'],c='red') # 紅色線驗(yàn)證集損失
plt.show()
評(píng)估模型:以新的時(shí)間段的股票交易系列數(shù)據(jù)作為測試集,評(píng)估模型測試集的表現(xiàn)。# 測試數(shù)據(jù)
dataset_test = pd.read_csv('./data/tatatest.csv')
dataset_test = dataset_test.sort_values(by='Date').reset_index(drop=True)
real_stock_price = dataset_test.iloc[:, 1:2].values
dataset_total = pd.concat((dataset_train['Open'], dataset_test['Open']), axis = 0)
inputs = dataset_total[len(dataset_total) - len(dataset_test) - 60:].values
inputs = inputs.reshape(-1,1)
inputs = sc.transform(inputs)
# 提取測試集
X_test = []
for i in range(60, 76):
X_test.append(inputs[i-60:i, 0])
X_test = np.array(X_test)
X_test = np.reshape(X_test, (X_test.shape[0], X_test.shape[1], 1))
# 模型預(yù)測
predicted_stock_price = regressor.predict(X_test)
# 逆歸一化
predicted_stock_price = sc.inverse_transform(predicted_stock_price)
# 模型評(píng)估
print('預(yù)測與實(shí)際差異MSE',sum(pow((predicted_stock_price - real_stock_price),2))/predicted_stock_price.shape[0])
print('預(yù)測與實(shí)際差異MAE',sum(abs(predicted_stock_price - real_stock_price))/predicted_stock_price.shape[0])
通過測試集評(píng)估,預(yù)測與實(shí)際差異MSE:53.03141531,預(yù)測與實(shí)際差異MAE :5.82196445。可視化預(yù)測值與實(shí)際值的差異情況,整體比較一致(注:本文僅從數(shù)據(jù)規(guī)律維度預(yù)測股價(jià),僅供參考不構(gòu)成任何投資建議,虧光了別找我)。
plt.plot(real_stock_price, color = 'red', label = 'Real TATA Stock Price')
plt.plot(predicted_stock_price, color = 'blue', label = 'Predicted TAT Stock Price')
plt.title('TATA Stock Price Prediction')
plt.xlabel('samples')
plt.ylabel('TATA Stock Price')
plt.legend()
plt.show()