在这个问题(r caret estimate parameters on a subset fit to full data)中,我被告知如何在r插入符号包中的训练,测试和最终模型拟合中使用的数据量方面保持灵活性 . 我使用10k数据进行训练,5k用于测试,20k用于最终模型拟合5个样本(不是10,如上面的答案中所使用的) . 使用(1)广义线性模型,(2)梯度增强,(3)支持向量机,(4)立体主义者和(5)袋土(MARS)拟合12个数据集 . 我使用了适合控制的修剪选项来限制结果中保存的信息量 . 查看12个元素列表的大小以保存结果:

> print(object.size(fit000.list), units = "MB")
521.4 Mb
> print(object.size(fit002.list), units = "MB")
742.8 Mb
> print(object.size(fit003.list), units = "MB")
584.2 Mb
> print(object.size(fit004.list), units = "MB")
576.8 Mb
> print(object.size(fit005.list), units = "MB")
8895.8 Mb

你会看到袋子地球的最后一个列表比其他列表大得多(x 10) . 看看这十二个拟合中的一个的结构,我看到有一个50个重新采样的finalModel $ fit列表,它们很大,其中有50个:

> print(object.size(fit005.list[[1]]$finalModel), units = "MB")
699.2 Mb
> print(object.size(fit005.list[[1]]$finalModel$fit), units = "MB")
679.2 Mb
> print(object.size(fit005.list[[1]]$finalModel$fit$Resample01), units = "MB")
13.6 Mb

有人知道袋土是否自然这么大?

是否不符合适合控制中的修剪选项?

有谁知道我是否可以控制ResampleXX的数量?

如果没有,我可以“手动”使它们无效而几乎没有后果吗?

谢谢 .