多标签分类，包括作为标签的数字范围-Java 学习之路

我有一个分类问题，我的标签是等级，0 - 100，增量为1（例如1,2,3,4） .

我有一个数据集，其中每一行都有一个名称，文本语料库和一个评级（0 - 100） .

从文本语料库我试图提取我可以提供给我的分类器的功能，这将输出每行相应的评级（0 - 100） .

对于功能选择，我想从基本的单词包开始 . 然而，我的问题在于分类算法 . sci-kit中是否有分类算法学习支持这类问题？

我正在阅读http://scikit-learn.org/stable/modules/multiclass.html，但所描述的算法似乎支持完全离散的标签，而我有一组连续标签 .

编辑：我收看评级的情况怎么样？例如，我可以有10个标签，每个标签为1-10 .

2 回答

1

您可以使用多变量回归而不是分类 . U可以从文本语料库中聚类n-gram特征以形成字典并使用它来形成特征集 . 使用此功能集，可以训练回归模型，其中输出可以是连续值 . U可以对输出实数进行舍入，以获得1-100中的离散标签

回复于 2024-04-29T22:39:23+08:00
1

您可以使用OneHotEncoder预处理数据，将一个1到100的特征转换为100个二进制特征，对应于间隔[1..100]的每个值 . 然后你将有100个标签并学习一个多类分类器 .

虽然，我建议改用Regression .

回复于 2024-04-29T22:39:23+08:00