第一次在这里发布海报,为新秀错误道歉
我使用R中的插入包进行分类 . 我在训练集上使用重复的10倍交叉验证来拟合一些模型(GBM,线性SVM,NB,LDA) . 使用自定义trainControl,插入符号甚至可以为我提供一系列模型性能指标,如ROC,Spec / sens,Kappa,测试折叠的准确度 . 这太棒了 . 我希望还有一个衡量标准:模型校准的一些衡量标准 .
我注意到插入符号中有一个function可以创建一个校准图来估计部分数据的模型性能的一致性 . 在交叉验证的模型构建过程中,是否可以为每个测试折叠计算插入符号?或者它只能应用于我们正在预测的一些新的数据?
对于某些情况,目前我有这样的事情:
fitControl <- trainControl(method = "repeatedcv", repeats=2, number = 10, classProbs = TRUE, summaryFunction = custom.summary)
gbmGrid <- expand.grid(.interaction.depth = c(1,2,3),.n.trees = seq(100,800,by=100),.shrinkage = c(0.01))
gbmModel <- train(y= train_target, x = data.frame(t_train_predictors),
method = "gbm",
trControl = fitControl,
tuneGrid = gbmGrid,
verbose = FALSE)
如果它有帮助,我使用~25个数字预测值,N = 2,200,预测一个两级因子 .
非常感谢您的任何帮助/建议 . 亚当
1 回答
calibration
函数接受您提供的任何数据 . 您可以从train
子对象pred
获取重新采样的值:然后你可以使用:
请记住,使用许多重新采样方法,单个训练集实例将被多次保留:
如果您愿意,可以按
rowIndex
平均类概率 .马克斯