TensorFlow中的多对多LSTM：训练错误不会减少-Java 学习之路

我正在尝试使用训练LSTM来表现得像一个控制器 . 这是一个很多很多问题 . 我有7个输入功能，每个功能都是40个值的序列 . 我的输出有两个功能，也是40个值的序列 .

我有2层 . 第一层具有四个LSTM单元，第二层具有两个LSTM单元 . 代码如下 .

代码按预期运行并产生输出，但我无法减少训练误差（均方误差） . 在前1000个时期之后，错误才停止改善 .

我尝试使用不同的批量大小 . 但即使批量大小为1，我也会收到很高的错误 . 我尝试使用简单的正弦函数进行相同的网络，并且它正常工作，即错误正在减少 . 这是因为我的序列长度太大，导致消失的梯度问题 . 我该怎么做才能改善训练错误？

#Specify input and ouput features
Xfeatures = 7 #Number of input features
Yfeatures = 2 #Number of input features
num_steps = 40

   # reset everything to rerun in jupyter
tf.reset_default_graph()
# Placeholder for the inputs in a given iteration.
u = tf.placeholder(tf.float32, [train_batch_size,num_steps,Xfeatures])
u_NN = tf.placeholder(tf.float32, [train_batch_size,num_steps,Yfeatures])

with tf.name_scope('Normalization'):
        #L2 normalization for input data
        Xnorm = tf.nn.l2_normalize(u_opt, 0, epsilon=1e-12, name='Normalize')

lstm1= tf.contrib.rnn.BasicLSTMCell(lstm1_size)
lstm2 = tf.contrib.rnn.BasicLSTMCell(lstm2_size)
stacked_lstm = tf.contrib.rnn.MultiRNNCell([lstm1, lstm2])

print(lstm1.output_size)
print(stacked_lstm.output_size)

LSTM_outputs, states = tf.nn.dynamic_rnn(stacked_lstm, Xnorm, dtype=tf.float32)
#Loss
mean_square_error = tf.losses.mean_squared_error(u_NN,LSTM_outputs)
train_step =     tf.train.AdamOptimizer(learning_rate).minimize(mean_square_error)
#Initialization and training session
init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)
    #print(sess.run([LSTM_outputs],feed_dict={u_opt:InputX1}))
    print(sess.run([mean_square_error],feed_dict={u_opt:InputX1,u_NN:InputY1}))
    for i in range(training_epochs):
        sess.run([train_step],feed_dict={u_opt:InputX1,u_NN:InputY1})
        if i%display_epoch ==0:
            print("Training loss is:",sess.run([mean_square_error],feed_dict={u_opt:InputX1,u_NN:InputY1}),"at itertion:",i) 
    print(sess.run([mean_square_error],feed_dict={u_opt:InputX1,u_NN:InputY1}))
    print(sess.run([LSTM_outputs],feed_dict={u_opt:InputX1}))

1 回答

1
你是什么意思：“第一层有四个LSTM单元，第二层有两个LSTM单元 . 代码如下”？可能你打算细胞的状态 .

您的代码不完整，但我可以尝试给您一些建议 .
- 如果您的训练错误没有减少，则可能是您的网络尺寸不合适 . 可能你的 lstm1_size 和 lstm2_size 不足以捕获数据的特征 .
- LSTM帮助您在状态向量中累积给定序列的过去 . 通常，状态向量本身不用作预测器，而是使用标准前馈层将其投影到输出空间 . 可能你只能保持单层递归（单个LSTM层），而不是使用前馈层投影层的输出（即g（W * LSTM_outputs b），其中g是非线性激活） .
回复于 2024-05-08T18:14:00+08:00

TensorFlow中的多对多LSTM：训练错误不会减少

1 回答

相关问题