学习率在LSTM中衰减

提问于 2024-04-19T19:50:37+08:00

浏览次

0

我目前正在复制http://karpathy.github.io/2015/05/21/rnn-effectiveness/中描述的char-RNN代码 . 在tensorflow中已经实现了代码，我所指的代码是https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/train.py我对学习速率衰减有疑问 . 在代码中，优化器被定义为AdamOptimizer . 当我查看代码时，我看到一行如下：

for e in range(args.num_epochs):
        sess.run(tf.assign(model.lr, args.learning_rate * (args.decay_rate ** e)))

它通过衰减常数调整学习率 . 我的问题是：亚当优化器不是让我们能够控制学习率吗？为什么我们仍然在这里使用学习率的衰减率？

1 回答

0

我认为你的意思是RMSprop而不是Adam，你链接的两个代码都使用RMSprop . RMSprop只能缩放渐变，不能有太大或太小的规范 . 因此，当我们在几个时期之后不得不放慢训练时，降低学习率是很重要的 .

回复于 2024-04-19T19:50:37+08:00

相关问题