我正在尝试使用Inception-v3架构(参考文件:Google's paper)作为我的固定特征提取器,使用我自己的数据集上的keras(类数= 4)训练一个Faster-RCNN网络,这与Image-net相比非常不同 . 我仍然用Image-net权重初始化它,因为paper证明了与随机初始化相比,使用预先训练的权重进行初始化总是更好 .

经过60个时期的训练,我的训练准确率为96%,我的验证准确率为84%,过度训练! (可能很严重?)但更令人担忧的是,我的损失根本没有收敛 . 在测试网络后,它失败了!比如,它甚至没有发现 .

然后我采取了略微不同的方法 . 我做了两步训练 . 首先,我在我的数据集上训练了Inception-v3,就像分类问题一样(用Image-net权重进行初始化),它收敛得很好 . 然后我使用这些权重来初始化Faster-RCNN网络 . 这有效!但是,我很困惑,为什么这两个阶段的方法有效,但从头开始训练不起作用 . 鉴于我最初使用预先训练的图像净重量初始化了这两种方法 .

有没有办法从头开始训练更快的RCNN?