在训练神经网络时,哪些层应该经历“辍学”?

我有这个多层网络 ReLU hidden 层激活和 Sigmoid output 层激活 . 我想实现辍学(每个神经元都有机会在训练期间输出零) .

我想我可以在训练期间将这种噪声作为ReLU激活程序的一部分来引入并完成它,但我不确定原则上是否有延迟扩展到可见/输出层 .


(在我看来,辍学消除了过度拟合,因为它有效地使网络成为许多较小网络的平均值 . 我只是不确定输出层)

回答(1)

2 years ago

是的,你是对的 - 你不应该将dropout应用于输出层 . 直观地 - 引入这种噪声使得网络的输出很可能与网络结构无关 . 无论在隐藏层中进行何种计算 - 有些概率输出可能与它们无关 . 这与建模的哲学完全相反 .