首页 文章

少数样本和特征的机器学习算法

提问于
浏览
-1

我打算做一个是/否分类器 . 问题是数据不是来自我,所以我必须处理我所得到的 . 我有大约150个样本,每个样本包含3个特征,这些特征是连续的数字变量 . 我知道数据集非常小 . 我想问你两个问题:

A)最好的机器学习算法是什么? SVM?一个神经网络?我读过的所有内容似乎都需要一个大数据集 .

B)我可以通过添加一些不包含所有特征的样本来使数据集更大一些,只有一个或两个 . 我已经读过你可以在这种情况下使用稀疏向量,这可能与每个机器学习算法一起使用吗? (我在SVM中看到过它们)

非常感谢你的帮助!!!

2 回答

  • -1

    Naive Bayes是一个很好的选择,适用于训练样例很少的情况 . 与逻辑回归相比,Ng和Jordan表明,Naive Bayes可以通过更少的训练样例更快地收敛到其最佳性能 . (参见本book chapter的第4节 . )非正式地说,朴素贝叶斯模拟了在这种情况下表现更好的联合概率分布 .

    在这种情况下不要使用决策树 . 决策树有过度拟合的倾向,当你的训练数据很少时,这个问题就会加剧 .

  • 1

    我的建议是使用一个简单而直接的算法,比如 decision treelogistic regression ,但是,你所指的算法应该同样有效 .

    数据集大小应该不是问题,因为您拥有的样本远远多于变量 . 但是 more data always helps .

相关问题