使用sci-kit中的训练/测试数据学习曲线而不是交叉验证

提问于 2024-04-29T02:08:10+08:00

浏览次

1

我将我的训练和测试数据分开（从不同的CSV加载到不同的pandas数据帧中）我想用这个训练和测试数据绘制学习曲线，而不是使用交叉验证训练和测试训练集自身生成的测试数据（似乎成为learn_curve工作的常用方式） .

似乎scikit希望您的测试和训练数据存在于同一个Dataframe中，但这样分类器也会学习测试数据，这不是我想要的 .

我怎样才能解决这个问题？我是sci-kit的新手 .

2 回答

0

您需要将训练和测试数据分开（至少在代码中的单独变量中） . 然后可以在训练集上应用learning curve . 这样，您可以在不使用测试集的情况下优化实验（以避免过度拟合） .

为了验证您在测试集上的表现如何，scikit-learn提供了validation curve，它根据测试集进行评估 .

回复于 2024-04-29T02:08:10+08:00
0

Scikit-Learn更棘手 . 它允许您定义train和测试集的train_sizes，然后对所有这些进行交叉验证（参数cv，默认为3倍交叉验证） .

回复于 2024-04-29T02:08:10+08:00

相关问题