我需要使用R中的插入包来确定KNN模型的repeatedCV的种子设置 .
我的火车数据集有12列1000行(二进制响应中的列1和其他11列是标准化的预测变量)
如何正确确定“repeatedCV”50倍和5次重复的种子设置 .
下面的种子设定是否正确?
有人可以帮助理解repeatCV和LOOCV的正确种子设定吗?
请参阅下面的代码 .
set.seed(123)
seeds <- vector(mode = "list", length = 251)
for(i in 1:250) seeds[[i]] <- sample.int(1000, 11)
## For the last model:
seeds[[251]] <- sample.int(1000, 1)
1 回答
sample.int()中的11应该是参数的#values .
在这种情况下,如果要在每个模型中评估11个KN的K值,则选择11.详细说明,在10个folod CV的一次重复中,您将有10个模型进行平均 . 在10个模型中的每个模型中,train()将尝试11个K值 .
2个类似的问题已经有很好的答案 .
Set seed parallel random forest in caret
Fully reproducible parallel models using caret