我想使用递归神经网络(RNN)预测一天的功耗 . 但是,我发现RNN所需的数据格式(样本,时间步长,功能)令人困惑 . 让我用一个例子来解释:
我在Dropbox上有power_dataset.csv,其中包含6月5日至6月18日的10分钟费率(每天144次观察) . 现在,为了使用rnn R
包检查RNN的性能,我遵循这些步骤
-
使用6月17日至6月17日的数据训练模型
M
-
使用
M
预测6月18日的使用情况,并在6月6日至17日更新使用情况
我对RNN数据格式的理解是:
Samples: 样本或观察数量 .
timesteps: 模式重复的步骤数 . 在我的情况下,144个观测值在一天内发生,因此每个连续的144个观测值构成时间步长 . 换句话说,它定义了季节性时期 .
features: 特征数量,在我的情况下是一个特征,即消费时间序列的历史天数
因此,我的脚本如下:
library(rnn)
df <- read.csv("power_dataset.csv")
train <- df[1:2016,] # train set from 5-16 June
test <- df[145:dim(df)[1],] # test set from 6-18 June
# prepare data to train a model
trainX <- train[1:1872,]$power # using only power column now
trainY <- train[1873:dim(train)[1],]$power
# data formatting acc. to rnn as [samples, timesteps, features]
tx <- array(trainX,dim=c(NROW(trainX),144,1))
ty <- array(trainY,dim=c(NROW(trainY),144,1))
model <- trainr(X=tx,Y=ty,learningrate = 0.04, hidden_dim = 10, numepochs = 100)
错误输出是:
The sample dimension of X is different from the sample dimension of Y.
由于错误的数据格式化而生成错误 . 如何正确格式化数据?
1 回答
几点:
您需要在输入
X
中输入相同数量的样本并在训练数据中输出Y
开始,在上面的实现中,您有_1863400_的1872个样本和Y
的144个样本 . 此外,您的训练数组tx
包含相同的列重复144次,这没有多大意义 .我们可以考虑通过以下几种方式训练
RNN
或LSTM
模型:在下图中,Model1尝试捕获模型2尝试捕获(前一天)重复模式的10分钟时间间隔内的重复模式 .