首页 文章

LSTM在CRNN架构中对批量标准化进行加权

提问于
浏览
-2

我在基于卷积RNN的网络上尝试按照https://arxiv.org/abs/1603.09025对LSTM权重进行批量标准化,并且我的训练速度和性能得到显着改善 . 从CNN提取的特征被馈送到2层双向LSTM中 .

在我的第一个网络中,我使用了很少的特征映射,因此LSTM层的输入是128.但是,当我增加输入大小(例如256)时,我会在一些迭代后开始获取LSTM输出的NaN(它没有批处理工作正常)正常化) . 我知道这可能与小数字的划分有关 . 我还使用了10 ^ -6的epsilon,但仍然得到了NaNs .

关于如何摆脱NaNs的任何想法?谢谢 .

1 回答

  • 0

    对于那些遇到相同问题的人,使用float64数据类型而不是float32有助于解决此问题 . 当然这有记忆含义,但我发现它是迄今为止唯一的解决方案 .

相关问题