首页 文章

LSTM的反向传播时间(BPTT)

提问于
浏览
1

我目前正在尝试了解TensorFlow中LSTM的BPTT . 我得到参数“num_steps”用于RNN推出的范围和反向传播的错误 . 我有一个关于它如何工作的一般问题 .

供参考重复公式 . 我指的是:Formulas LSTMhttps://arxiv.org/abs/1506.00019

Question: 哪些路径反向传播了许多步骤?恒定误差轮播由公式5创建,并且反向传播的推导(s(t) - > s(t-1))对于所有时间步长都是1 . 这就是LSTM捕获长程依赖性的原因 . 我对h(t-1)的g(t),i(t),f(t)和o(t)的依赖性感到困惑 . 用语言来说:当前的门不仅取决于输入,还取决于最后的隐藏状态 .

Doesn't this dependency lead to the exploding/vanishing gradients problem again?

如果我沿着这些连接反向传播,我得到的渐变不是一个 . 窥视孔连接基本上导致同样的问题 .

谢谢你的帮助!

1 回答

相关问题