首页 文章

使用sci-kit中的训练/测试数据学习曲线而不是交叉验证

提问于
浏览
1

我将我的训练和测试数据分开(从不同的CSV加载到不同的pandas数据帧中)我想用这个训练和测试数据绘制学习曲线,而不是使用交叉验证训练和测试训练集自身生成的测试数据(似乎成为learn_curve工作的常用方式) .

似乎scikit希望您的测试和训练数据存在于同一个Dataframe中,但这样分类器也会学习测试数据,这不是我想要的 .

我怎样才能解决这个问题?我是sci-kit的新手 .

2 回答

  • 0

    您需要将训练和测试数据分开(至少在代码中的单独变量中) . 然后可以在训练集上应用learning curve . 这样,您可以在不使用测试集的情况下优化实验(以避免过度拟合) .

    为了验证您在测试集上的表现如何,scikit-learn提供了validation curve,它根据测试集进行评估 .

  • 0

    Scikit-Learn更棘手 . 它允许您定义train和测试集的train_sizes,然后对所有这些进行交叉验证(参数cv,默认为3倍交叉验证) .

相关问题