在训练网络时,我一直看到一种非常奇怪的行为,经过几十次迭代(8到10小时)的学习,一切都中断,训练损失增加:
训练数据本身是随机的,并且分布在许多包含 1000
示例的文件中,然后在输入阶段再次进行洗牌并分批到 200
示例 .
背景
我正在设计一个同时执行四种不同回归任务的网络,例如确定物体出现在图像中并同时确定其方向的可能性 . 网络以几个卷积层开始,一些具有剩余连接,然后分支到四个完全连接的段 .
由于第一次回归导致概率,我使用交叉熵进行损失,而其他使用经典L2距离 . 然而,由于它们的性质,概率损失大约为 0..1
,而定向损失可能要大得多,比如 0..10
. 我已经将输入和输出值标准化并使用剪切
normalized = tf.clip_by_average_norm(inferred.sin_cos, clip_norm=2.)
在事情变得非常糟糕的情况下 .
我已经(成功地)使用Adam优化器来优化包含所有不同损失的张量(而不是 reduce_sum
),如下所示:
reg_loss = tf.reduce_sum(tf.get_collection(tf.GraphKeys.REGULARIZATION_LOSSES))
loss = tf.pack([loss_probability, sin_cos_mse, magnitude_mse, pos_mse, reg_loss])
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate,
epsilon=self.params.adam_epsilon)
op_minimize = optimizer.minimize(loss, global_step=global_step)
为了在TensorBoard中显示结果,我实际上是这样做的
loss_sum = tf.reduce_sum(loss)
标量摘要 .
Adam被设置为学习率 1e-4
和epsilon 1e-4
(我看到与epislon的默认值相同的行为,当我将学习率保持在 1e-3
时它会更快地突破) . 正规化对这一点也没有影响,它在某种程度上是这样做的 .
我还应该补充说,停止训练并从最后一个检查点重新启动 - 这意味着训练输入文件也会再次洗牌 - 导致相同的行为 . 在那一点上,训练似乎总是表现得相似 .
2 回答
是 . 这是亚当的一个已知问题 .
亚当的方程是
其中
m
是平均梯度的指数移动平均值,v
是梯度平方的指数移动平均值 . 问题是,当你长时间训练并接近最佳状态时,v
会变得非常小 . 如果然后突然间梯度开始再次增加,它将被除以非常小的数量并爆炸 .默认情况下
beta1=0.9
和beta2=0.999
. 所以m
的变化比v
快得多 . 所以m
可以再次开始变大,而v
仍然很小,无法赶上 .要解决此问题,您可以增加
epsilon
,默认情况下为10-8
. 因此,停止几乎除以0的问题 . 根据您的网络,0.1
,0.01
或0.001
中的值epsilon
可能是好的 .是的,这可能是某种超级复杂的不稳定数字/方程式情况,但最确定的是你的训练率只是很高,因为你的损失会迅速减少到25K,然后在相同的水平上振荡很多 . 尝试将其减少0.1倍,看看会发生什么 . 你应该能够达到更低的损失 Value .
继续探索! :)