我有几个关于Keras示例pretrained_word_embeddings的问题,以提高对其工作原理的理解程度 .
-
在这种模型中使用
dropout
图层是否合理? -
最后
MaxPooling1D
图层每次都要覆盖所有输出形状?在原始模型中,最后一个转换层输出为35,我们将maxpool设置为相同的35值 . -
我是否正确,如果说增加值128(内核数量)会提高准确性?
-
添加额外的转换层以提高准确度是否有意义?即使它会减少模型训练阶段 .
谢谢!
我有几个关于Keras示例pretrained_word_embeddings的问题,以提高对其工作原理的理解程度 .
在这种模型中使用 dropout
图层是否合理?
最后 MaxPooling1D
图层每次都要覆盖所有输出形状?在原始模型中,最后一个转换层输出为35,我们将maxpool设置为相同的35值 .
我是否正确,如果说增加值128(内核数量)会提高准确性?
添加额外的转换层以提高准确度是否有意义?即使它会减少模型训练阶段 .
谢谢!
1 回答
所以基本上你的问题有一个简单的答案 - 你需要测试它:
添加
dropout
通常是件好事 . 它介绍了合理的随机化和正规化量 . 缺点是您需要设置其参数的正确值 - 有时可能需要一段时间 .在我看来 - 最后一个池中的
MaxPooling1D
的值是以这种方式设置的,以便减少下一层输入的维数 . 可以检查是否例如像上一层中数字的一半(在一个呈现的情况下 - 例如18
) - 只能将输入的大小变为下一层 - 可能会带来任何改进 .很难说 - 如果你是拥有一个非常严格的结构的少量数据 - 很多参数可能会严重损害您的培训 . 最好的方法是在 grid 或 random 搜索范例中测试不同的参数值 . 相信random search做得更好:)