我们为什么要在使用dropout时扩展输出？

提问于 2024-04-26T05:54:15+08:00

浏览次

0

来自dropout paper：

“我们的想法是在测试时使用单个神经网络而不会丢失 . 此网络的权重是训练权重的缩小版本 . 如果在训练期间以概率p保留单位，则该单位的输出权重为在测试时间乘以p，如图2所示 . 这确保了对于任何隐藏单元，预期输出（在训练时用于丢弃单位的分布下）与测试时的实际输出相同 .

为什么我们要保留预期的产出？如果我们使用ReLU激活，权重或激活的线性缩放会导致网络输出的线性缩放，并且对分类准确性没有任何影响 .

我错过了什么？

1 回答

0

确切地说，我们希望不保留“预期输出”而是保留输出的预期值，也就是说，我们希望弥补训练中的差异（当我们不传递某些节点的值时）和测试阶段通过保留输出的平均（预期）值 .

在ReLU激活的情况下，这种缩放确实会导致输出的线性缩放（当它们为正时），但为什么你认为它不会影响分类模型的最终准确性？至少在最后，我们通常应用sigmoid的softmax，它是非线性的并且取决于这种缩放 .

回复于 2024-04-26T05:54:15+08:00

相关问题