我试图对一个包含离散和连续特征的例子进行分类 . 此外,该示例表示稀疏数据,因此即使系统可能已经训练了100个特征,该示例可能仅具有12个 .
用于实现此目的的最佳分类器算法是什么?我've been looking at Bayes, Maxent, Decision Tree, and KNN, but I'我不确定是否符合条款 . 我最大的支持点是支持稀疏数据集以及离散和连续特征 . 任何人都可以推荐符合这些标准的算法和实现(最好是在Python中)吗?
到目前为止我看过的图书馆包括:
3 回答
Weka(Java)满足您的所有要求:
大量classification/regression算法
支持离散/连续(在Weka中称为名义/数字)attributes
处理稀疏数据:ARFF format
查看此Pentaho wiki以获取文档,指南,视频教程等链接列表......
Support vector machines? libsvm可以在Python中使用,并且速度非常快 .
处理稀疏矢量输入,并且不介意某些特征是连续的,其他特征只是-1 / 1.(如果你有一个n路离散特征,标准的做法是将它扩展为n二进制特征 . )
scikit-learn,Python机器学习模块支持Stochastic Gradient Descent和Support Vector machines用于稀疏数据 .