LSTM在CRNN架构中对批量标准化进行加权

提问于 2024-05-02T16:19:28+08:00

浏览次

-2

我在基于卷积RNN的网络上尝试按照https://arxiv.org/abs/1603.09025对LSTM权重进行批量标准化，并且我的训练速度和性能得到显着改善 . 从CNN提取的特征被馈送到2层双向LSTM中 .

在我的第一个网络中，我使用了很少的特征映射，因此LSTM层的输入是128.但是，当我增加输入大小（例如256）时，我会在一些迭代后开始获取LSTM输出的NaN（它没有批处理工作正常）正常化） . 我知道这可能与小数字的划分有关 . 我还使用了10 ^ -6的epsilon，但仍然得到了NaNs .

关于如何摆脱NaNs的任何想法？谢谢 .

1 回答

0

对于那些遇到相同问题的人，使用float64数据类型而不是float32有助于解决此问题 . 当然这有记忆含义，但我发现它是迄今为止唯一的解决方案 .

回复于 2024-05-02T16:19:28+08:00

相关问题