从零开始训练初始V2 - 发散-Java 学习之路

作为一个学习练习，我正在使用Kaggle比赛中的ImageNet dataset从头开始训练Inception（v2）模型 . 我目前正在我的MacBook Pro（单CPU）上进行训练，所以我预计它会在不少于一个月左右的时间内收敛 .

这是Inception模型的my implementation . 输入为224x224x3图像，值范围为[0,1] . 学习率设置为静态0.01，我使用随机梯度下降优化器 .

经过48小时的培训，培训损失似乎表明它正在从培训数据中学习，但验证损失开始变得更糟 . 通常情况下，这种模型会过度拟合 . 看起来我的模型或数据集可能有问题，或者这是完全可以预料的，因为我只训练了5.8个时代？

enter image description here

我在1.5个时期后的训练和验证损失和准确性 .

enter image description here

5.8个时期后的培训和验证损失和准确性 .

enter image description here

一些输入图像由模型看到，以及一个早期卷积层的输出 .

从零开始训练初始V2 - 发散