我正在训练LSTM网络,我希望了解长序列训练的最佳实践,O(1k)长度或更长 . 选择小批量大小的好方法是什么?标签流行率的偏差会如何影响这种选择? (我的情景中很少见正面) . 是否值得努力重新 balancer 我的数据?谢谢 .
您可能希望重新 balancer ,因此它们是50/50 . 否则它将倾向于一个或另一个类 .
至于批量大小,我会尽可能大到适合内存 .
我不确定LSTM是否能够学习O(1k)的依赖性,但值得一试 . 如果你想要超长依赖,你可以考虑做一些像wavenet这样的事情 .
https://deepmind.com/blog/wavenet-generative-model-raw-audio/
1 回答
您可能希望重新 balancer ,因此它们是50/50 . 否则它将倾向于一个或另一个类 .
至于批量大小,我会尽可能大到适合内存 .
我不确定LSTM是否能够学习O(1k)的依赖性,但值得一试 . 如果你想要超长依赖,你可以考虑做一些像wavenet这样的事情 .
https://deepmind.com/blog/wavenet-generative-model-raw-audio/