LIBSVM过度拟合-Java 学习之路

在进行了10次交叉验证后，我训练了两个svms（LIBSVM）和15451个样本，并找到了gamma和C（RBF内核）的最佳参数值 . 在一个svm中，我只使用了1个特征，而在第二个中使用了另一个特征（以查看这个附加是否正在改进预测） . 在CV之后，我的准确度为75％（具有一个特征的SVM）和77％（具有该额外一个的SVM） . 在另外15451个实例上测试后，我的准确率分别为70％和72％ .

我知道这称为过度拟合，但在这里它很重要，因为它只有5％的差异 .

我该怎么做才能避免过度拟合？

使用一两个功能和一个相对较大的训练集甚至是好的吗？

希望你能帮助我 .

1 回答

3

这里过度拟合似乎有些混乱 .

简而言之，“过度拟合”并不意味着您拟合训练集的准确性（不成比例地）高于拟合通用测试集 . 相反，这是效果，而不是原因 .

“过度拟合”意味着你的模型试图不费力地适应训练集，并且在拾取所有信号后，它开始适应噪声 . 作为一个（非常标准的）示例，假设生成来自直线的数据点，但随后添加一点高斯噪声：这些点将“大致”在一条线上，但不完全相同 . 当你试图找到一条能够通过每一点的曲线（例如27级的多项式）时，当你真正需要的是一条直线时，你会过度拟合 .

一种可视化检查方法是绘制学习曲线 .

这个网页看起来很有用，所以我从这里开始了解更多信息：http://www.astroml.org/sklearn_tutorial/practical.html

回复于 2024-04-29T14:01:01+08:00

LIBSVM过度拟合

1 回答

相关问题