我有一个分类问题,我的标签是等级,0 - 100,增量为1(例如1,2,3,4) .
我有一个数据集,其中每一行都有一个名称,文本语料库和一个评级(0 - 100) .
从文本语料库我试图提取我可以提供给我的分类器的功能,这将输出每行相应的评级(0 - 100) .
对于功能选择,我想从基本的单词包开始 . 然而,我的问题在于分类算法 . sci-kit中是否有分类算法学习支持这类问题?
我正在阅读http://scikit-learn.org/stable/modules/multiclass.html,但所描述的算法似乎支持完全离散的标签,而我有一组连续标签 .
编辑:我收看评级的情况怎么样?例如,我可以有10个标签,每个标签为1-10 .
2 回答
您可以使用多变量回归而不是分类 . U可以从文本语料库中聚类n-gram特征以形成字典并使用它来形成特征集 . 使用此功能集,可以训练回归模型,其中输出可以是连续值 . U可以对输出实数进行舍入,以获得1-100中的离散标签
您可以使用OneHotEncoder预处理数据,将一个1到100的特征转换为100个二进制特征,对应于间隔[1..100]的每个值 . 然后你将有100个标签并学习一个多类分类器 .
虽然,我建议改用Regression .