使用scikit-learn进行多标签文本分类，使用哪种分类器？-Java 学习之路

我使用scikit-learn Python库导入这些分类器进行了文本分类：

from sklearn.linear_model import RidgeClassifier
from sklearn.svm import LinearSVC
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import Perceptron
from sklearn.linear_model import PassiveAggressiveClassifier
from sklearn.naive_bayes import BernoulliNB, MultinomialNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.neighbors import NearestCentroid
from sklearn.ensemble import RandomForestClassifier

输入文本的格式如下：

('some text 1', 'class1')
('some text 2', 'class2')
('some text 3', 'class3')
...

一切都很好 . 但我想知道的是，如果我有多标签的文字，如：

('some text 1', 'class1', 'class3')
('some text 2', 'class2', 'class1')
('some text 3', 'class3')
...

如果可以使用这些分类器，还是应该使用其他分类器？

1 回答

1
能够执行多类或多标签的所有分类器都在this page上引用 .

基于此，只有2个模型可以直接用作多标签：
- RandomForestClassifier
- KNeighborsClassifier
在我做完之后（在练习中），将OneVsAll与另一个兼容的分类器一起使用然后提取前N个或所有标签高于X％（你拥有的标签越多，总和相等就越低 . 到1） . 这不是你能做的最干净的事情，但它有效（我将它与多标签分类器结果进行比较，它非常接近或相同）

我希望它有所帮助，尼古拉斯
回复于 2024-05-04T08:35:38+08:00

使用scikit-learn进行多标签文本分类，使用哪种分类器？

1 回答

相关问题