RNN L2正规化停止学习-Java 学习之路

我使用双向RNN来检测不 balancer 事件 . 正面课程比负面课程少100倍 . 虽然没有正则化使用，但我可以在列车组上获得100％的准确率，在验证组上获得30％的准确度 . 我打开l2正则化，结果在列车设置上的准确度只有30％，而不是更长的学习和100％的验证集准确性 .

我在想，也许我的数据太小，所以只是为了实验我合并了火车套装和我以前没用的测试装置 . 情况与我使用l2正规化相同，我现在没有 . 我在列车测试和验证方面获得了30％的准确率 .

在所提到的实验中使用128隐藏单位和80次步骤当我将隐藏单位的数量增加到256时，我可以再次在火车测试集上过度拟合以获得100％的准确度，但在验证集上仍然只有30％ .

我确实为超参数尝试了很多选项，几乎没有结果 . 也许加权交叉熵导致问题，在给定的实验中，正类的权重为5.虽然尝试更大的权重，但结果通常更差，约为准确度的20％ .

我尝试过LSTM和GRU细胞，没有区别 .

我得到的最好的结果 . 我尝试了2个具有256个隐藏单元的隐藏层，花了大约3天的计算时间和8GB的GPU内存 . 在它开始过度拟合之前我得到了大约40-50％的准确度，而l2正则化开启但没有那么强 .

是否有一些一般准则在这种情况下该怎么做？我找不到任何东西 .

1 回答