在LSTM中截断反向传播，梯度值出错-Java 学习之路

Hochreiter在他1997年的开创性LSTM论文中提出了反向传播版本 . 当计算某个网络权重的梯度时，他会以只保留前一时间步骤中的单元状态的导数的方式截断导数（附录1） . 鉴于这种近似，他证明了恒定误差仅在后续的单元状态之间传播（附录2） .

从我的观点来看，当忽略来自单元格外部的渐变贡献时会发生错误 . 因此网络权重更新时出错 . 在文章中没有估计错误 . 为什么Hochreiter会手动取消对梯度的一些贡献而没有基础呢？被忽视的梯度部分难道不能成为学习LSTM的关键吗？

在LSTM中截断反向传播，梯度值出错