我已经下载了Imagenet2011数据集,并尝试使用here指令在其上训练Caffe imagenet网络 . 我使用大约500K图像进行训练,使用70K图像进行验证 .

我还下载了ILSVRC 2012验证集进行实验 .

结果如下:

On ILSVRC 2012 official validation set: 我的网络:准确度为46%,原始Caffe Imagenet网络:准确率为56% .

On MY validation set: 我的网络:准确率为53%,原始Caffe Imagenet网络:准确率为80% .

On MY training data (checking for overfitting): 我的网络:99%准确度,原始Caffe Imagenet网络:70%准确度 .

我想请求一些有关培训的帮助和提示:

  • 我感觉我的新网络过度拟合 . 你同意吗?我应该使用更多图像吗?使用数据增加来机械地增加训练集的大小?或者更改dropout参数?

  • 在Krizhevsky等人的论文"Imagenet classification with deep convolutional neural networks"中 . 1它说作者使用1.2M图像进行训练并使用数据增加2,这使得训练数据的大小增加了2048倍 . 但是,在为代码提供的代码中没有进行任何数据增加(除了随机翻转) . imagenet培训 . 是不是真的需要数据扩充?

  • 我只对ImageNet数据集中的大约100个类感兴趣 . 假设我只用100个类,总共100K图像训练imagenet网络(从头开始) . 它远远低于最初的1.2M图像,但它的类别也少得多 . 网络是否过度适应或将在这100个类别中提供良好的性能?或者我应该只为100个课程使用不同的网络架构?训练Imagenet网络然后只使用这100个类进行微调会更好吗?

  • 对于原始的1K类别,我只有500K图像(而不是1.2M) . 我应该使用包含更多图像的类别吗?如何使用更多类别(和图像)?

提前致谢!

吉尔

1 Krizhevsky,Alex,Ilya Sutskever和Geoffrey E. Hinton . "Imagenet classification with deep convolutional neural networks."神经信息处理系统的进展 . 2012 .

2 "The first form of data augmentation consists of generating image translations and horizontal reflections. We do this by extracting random 224 x224 patches (and their horizontal reflections) from the 256x 256 images and training our network on these extracted patches4. This increases the size of our training set by a factor of 2048, though the resulting training examples are, of course, highly interdependent."