首页 文章

我们为什么要在使用dropout时扩展输出?

提问于
浏览
0

来自dropout paper

“我们的想法是在测试时使用单个神经网络而不会丢失 . 此网络的权重是训练权重的缩小版本 . 如果在训练期间以概率p保留单位,则该单位的输出权重为在测试时间乘以p,如图2所示 . 这确保了对于任何隐藏单元,预期输出(在训练时用于丢弃单位的分布下)与测试时的实际输出相同 .

为什么我们要保留预期的产出?如果我们使用ReLU激活,权重或激活的线性缩放会导致网络输出的线性缩放,并且对分类准确性没有任何影响 .

我错过了什么?

1 回答

  • 0

    确切地说,我们希望不保留“预期输出”而是保留输出的预期值,也就是说,我们希望弥补训练中的差异(当我们不传递某些节点的值时)和测试阶段通过保留输出的平均(预期)值 .

    在ReLU激活的情况下,这种缩放确实会导致输出的线性缩放(当它们为正时),但为什么你认为它不会影响分类模型的最终准确性?至少在最后,我们通常应用sigmoid的softmax,它是非线性的并且取决于这种缩放 .

相关问题