首页 文章

多标签分类,包括作为标签的数字范围

提问于
浏览
0

我有一个分类问题,我的标签是等级,0 - 100,增量为1(例如1,2,3,4) .

我有一个数据集,其中每一行都有一个名称,文本语料库和一个评级(0 - 100) .

从文本语料库我试图提取我可以提供给我的分类器的功能,这将输出每行相应的评级(0 - 100) .

对于功能选择,我想从基本的单词包开始 . 然而,我的问题在于分类算法 . sci-kit中是否有分类算法学习支持这类问题?

我正在阅读http://scikit-learn.org/stable/modules/multiclass.html,但所描述的算法似乎支持完全离散的标签,而我有一组连续标签 .

编辑:我收看评级的情况怎么样?例如,我可以有10个标签,每个标签为1-10 .

2 回答

  • 1

    您可以使用多变量回归而不是分类 . U可以从文本语料库中聚类n-gram特征以形成字典并使用它来形成特征集 . 使用此功能集,可以训练回归模型,其中输出可以是连续值 . U可以对输出实数进行舍入,以获得1-100中的离散标签

  • 1

    您可以使用OneHotEncoder预处理数据,将一个1到100的特征转换为100个二进制特征,对应于间隔[1..100]的每个值 . 然后你将有100个标签并学习一个多类分类器 .

    虽然,我建议改用Regression .

相关问题