首页 文章

LIBSVM过度拟合

提问于
浏览
4

在进行了10次交叉验证后,我训练了两个svms(LIBSVM)和15451个样本,并找到了gamma和C(RBF内核)的最佳参数值 . 在一个svm中,我只使用了1个特征,而在第二个中使用了另一个特征(以查看这个附加是否正在改进预测) . 在CV之后,我的准确度为75%(具有一个特征的SVM)和77%(具有该额外一个的SVM) . 在另外15451个实例上测试后,我的准确率分别为70%和72% .

我知道这称为过度拟合,但在这里它很重要,因为它只有5%的差异 .

我该怎么做才能避免过度拟合?

使用一两个功能和一个相对较大的训练集甚至是好的吗?

希望你能帮助我 .

1 回答

  • 3

    这里过度拟合似乎有些混乱 .

    简而言之,“过度拟合”并不意味着您拟合训练集的准确性(不成比例地)高于拟合通用测试集 . 相反,这是效果,而不是原因 .

    “过度拟合”意味着你的模型试图不费力地适应训练集,并且在拾取所有信号后,它开始适应噪声 . 作为一个(非常标准的)示例,假设生成来自直线的数据点,但随后添加一点高斯噪声:这些点将“大致”在一条线上,但不完全相同 . 当你试图找到一条能够通过每一点的曲线(例如27级的多项式)时,当你真正需要的是一条直线时,你会过度拟合 .

    一种可视化检查方法是绘制学习曲线 .

    这个网页看起来很有用,所以我从这里开始了解更多信息:http://www.astroml.org/sklearn_tutorial/practical.html

相关问题