辍学的Keras实现是否正确?

Keras 实现了dropout引用this paper .

以下摘录来自该文件:

这个想法是在测试时使用单个神经网络而不会丢失 . 该网络的权重是训练权重的缩小版本 . 如果在训练期间以概率p保留单位,则在测试时间将该单位的输出权重乘以p,如图2所示 .

Keras文档提到丢失仅在火车时使用,以及Dropout实施中的以下行

x = K.in_train_phase(K.dropout(x, level=self.p), x)

似乎表明,确实来自图层的输出只是在测试时间内传递 .

此外,我无法找到在训练完成后缩小权重的代码,正如论文所暗示的那样 . 我的理解是这个缩放步骤对于使丢失工作从根本上是必要的,因为它相当于在“子网络”集合中获取中间层的预期输出 . 没有它,计算就不再被视为从这个“子网络”集合中进行采样 .

那么,我的问题是,在Keras实施的辍学的缩放效果在哪里呢?

Update 1: 好的,所以Keras使用反向丢失,虽然在Keras文档和代码中称为dropout . 链接http://cs231n.github.io/neural-networks-2/#reg似乎并不表示两者是等价的 . 答案也不是https://stats.stackexchange.com/questions/205932/dropout-scaling-the-activation-versus-inverting-the-dropout . 我可以看到他们做了类似的事情,但我还没有看到有人说他们完全一样 . 我认为他们不是 .

所以一个新问题:辍学和倒退辍学相当吗?要清楚,我正在寻找说出他们是或否的数学理由 .

回答(2)

2 years ago

是 . 它正确实施 . 从Dropout发明之时起 - 人们也从实施的角度对其进行了改进 . Keras正在使用这种技术之一 . 它被称为 inverted dropout ,您可以阅读它here .

UPDATE:

说实话 - 在严格的数学意义上,这两种方法并不相同 . 在 inverted case 中,您将每个隐藏的激活乘以dropout参数的倒数 . 但由于该导数是线性的,它相当于将所有梯度乘以相同的因子 . 要克服这种差异,您必须设置不同的学习重量 . 从这个角度来看,这种方法不同 . 但从实际角度来看 - 这种方法是等效的,因为:

  • 如果您使用自动设置学习速率的方法(如RMSProp或Adagrad) - 它将几乎不会改变算法 .

  • 如果您使用自动设置学习率的方法 - 您必须考虑到辍学的随机性质以及由于在训练阶段某些神经元将被关闭的事实(在测试/评估阶段不会发生的事情) ) - 你必须重新调整你的学习率,以克服这种差异 . 概率论给出了最好的重新调用因子 - 它是压差参数的倒数,它使得损耗函数梯度长度的期望值在列车和测试/评估阶段都相同 .

当然 - 以上两点都是关于 inverted dropout 技术 .

2 years ago

摘自the original Dropout paper(第10节):

在本文中,我们将辍学描述为一种方法,我们在训练时保留概率为p的单位,并在测试时将它们乘以系数p来缩小权重 . 实现相同效果的另一种方法是通过在训练时间乘以1 / p而不在测试时修改权重来放大保留的激活 . 这些方法与每层的学习速率和权重初始化的适当缩放等效 .