我想根据一些标准f(图像,标签)以特定的顺序从cifar10中提取数据(为了举例,我们可以说f(图像,标签)只是计算Image中所有像素的总和) . 然后,我想为火车组生成1个文件,为测试集生成1个文件,稍后我可以将其加载到数据加载器中以用于训练神经网络 .

我该怎么做呢?我当前的想法只是通过数据加载器循环访问数据并随意关闭并记住图像和分数的索引,然后根据分数对索引进行排序,然后再循环遍历所有内容并创建一些巨大的numpy数组并保存它 . 我保存后,我会使用torch.utils.data.TensorDataset(X_train,X_test)来包装TensorDataset并提供给DataLoader .

我认为它至少可以用于像cifar10这样的小数据集,对吧?

对我来说另一个非常重要的事情是我也想只训练前K个图像(特别是因为我已经对它们进行了排序,第一个K具有我想要保留的特殊含义)所以尊重但是仅用一小部分进行训练将是重要的 .


https://discuss.pytorch.org/t/how-does-one-create-a-data-set-in-pytorch-and-save-it-into-a-file-to-later-be-used/16742