我正在使用CoreML训练我自己的动物模型 . 读Apple Docs it says

每个标签至少使用10张图像作为训练集,但更多的图像总是更好 . 另外, balancer 每个标签的图像数量 . 例如,不要为猎豹使用10张图像,为Elephant使用1000张图像 .

我正在使用python script每个数据集下载1000张图像(1000只熊,1000只猎豹,1000只大象等) . 我注意到有时候我会得到400张一张图片,700张另一张图片,900张另一张图片等等

animals
  -bears (402 pics)
  -cheetahs (810 pics)
  -elephants (420 pics)
  -lions (975 pics)
  -tigers (620 pics)
  -zebras (793)

要通过终端下载图像,请输入:

// python image_download_python2.py <query> <number of images>
python image_download_python2.py 'elephants' '1000'

Because it returns some data sets with images of 400, others 700, and others with 900 etc would this still be considered "balanced out" or do I need to set a down limit of 500 when I run the python script so that everything hovers around 500 images no matter what?

python image_download_python2.py 'elephants' '500'

我非常确定我总能获得至少400张图像 .

请记住,文档说更多图像总是更好

每个标签至少使用10张图像作为训练集,但更多的图像总是更好 .

另外一点是,当数据集不 balancer 时,CoreML模型会在训练时发生什么,就像Apple的10只猎豹和1000只大象的例子一样?