Hochreiter在他1997年的开创性LSTM论文中提出了反向传播版本 . 当计算某个网络权重的梯度时,他会以只保留前一时间步骤中的单元状态的导数的方式截断导数(附录1) . 鉴于这种近似,他证明了恒定误差仅在后续的单元状态之间传播(附录2) .

从我的观点来看,当忽略来自单元格外部的渐变贡献时会发生错误 . 因此网络权重更新时出错 . 在文章中没有估计错误 . 为什么Hochreiter会手动取消对梯度的一些贡献而没有基础呢?被忽视的梯度部分难道不能成为学习LSTM的关键吗?