首页 文章

可以用验证模型做预测整个数据集吗?

提问于
浏览
2

我们一直在大约15k行的数据集上运行'gbm'模型 . 我们已经直接实现了10次交叉验证,得出了一个交叉验证的模型,我们用它来再次预测同一个数据集 .

这导致可能过度拟合的模型具有约0.99训练AUC和0.92cv AUC . 预测AUC也非常高,约为0.99 .

审稿人要求我们使用holdout数据集验证模型 . 我们假设我们将数据分成保持数据和训练数据 . 然后训练数据将再次进行kfold交叉验证 . 然后使用保持数据集验证模型 . 我的最后一个问题是,我们是否可以在整个数据集中再次使用经过验证的模型进行预测?

1 回答

  • 3

    你可以...... should 的问题取决于你想要描绘的内容 .

    理想情况下,您希望能够证明您的模型能很好地推广到新数据(保持),并将其与模型在训练数据上的表现进行比较 . 如果您的模型在两者之间的性能差异很大,那么您可能会过度拟合数据 .

    我不会立刻预测所有数据(训练和保持),因为它无法证明模型能够预测看不见的数据 .

    您的目标是在k-CV期间提供训练数据的性能,然后在保持状态 .

    根据您的k-CV设置,您可以在比较前预测两者之前在整个训练集上训练模型 . 您需要更具体地描述您的确切设置 .

相关问题