在Scikit-learn中，F1小于精度和召回-Java 学习之路

我正在进行多级分类，具有不 balancer 的类别 .

我注意到f1总是小于精度和召回的直接调和平均值，在某些情况下，f1甚至小于精度和召回率 .

仅供参考，我打电话给 metrics.precision_score(y,pred) 以获得精确度等等 .

我知道微观/宏观平均值的差异，并通过使用 precision_recall_fscore_support() 的类别结果测试它们不是微观的 .

不确定这是由于使用了宏观平均值还是其他一些原因？

更新了详细结果如下：

n_samples：75，n_features：250

MultinomialNB（alpha = 0.01，fit_prior = True）

2-fold CV:

第一轮：

F1:        0.706029106029
Precision: 0.731531531532
Recall:    0.702702702703

         precision    recall  f1-score   support

      0       0.44      0.67      0.53         6
      1       0.80      0.50      0.62         8
      2       0.78      0.78      0.78        23

avg / total       0.73      0.70      0.71        37

第二轮：

F1:        0.787944219523
Precision: 0.841165413534
Recall:    0.815789473684

         precision    recall  f1-score   support

      0       1.00      0.29      0.44         7
      1       0.75      0.86      0.80         7
      2       0.82      0.96      0.88        24

avg / total       0.84      0.82      0.79        38

总体：

Overall f1-score:   0.74699 (+/- 0.02)
Overall precision:  0.78635 (+/- 0.03)
Overall recall:     0.75925 (+/- 0.03)

关于微观/宏观平均的定义来自Scholarpedia：

在多标签分类中，计算跨类别的总分的最简单方法是平均所有二进制任务的分数 . 得到的分数称为宏观平均召回，精确度，F1等 . 另一种平均方法是首先在所有类别上对TP，FP，TN，FN和N求和，然后计算上述每个指标 . 得出的分数称为微观平均分 . 宏观平均对每个类别赋予相同的权重，并且通常由系统在类似幂分布的稀有类别（大多数）上的表现来支配 . 微平均对每个文档赋予相同的权重，并且通常由系统在大多数常见类别上的性能决定 .

它是Github中的当前open issue，＃83 .

以下示例演示了Micro，Macro和加权（Scikit-learn中的当前）平均值可能有何不同：

y    = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2]
pred = [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 2, 0, 1, 2, 2, 2, 2]

混淆矩阵：

[[9 3 0]
 [3 5 1]
 [1 1 4]]

Wei Pre: 0.670655270655
Wei Rec: 0.666666666667
Wei F1 : 0.666801346801
Wei F5 : 0.668625356125

Mic Pre: 0.666666666667
Mic Rec: 0.666666666667
Mic F1 : 0.666666666667
Mic F5 : 0.666666666667

Mac Pre: 0.682621082621
Mac Rec: 0.657407407407
Mac F1 : 0.669777037588
Mac F5 : 0.677424801371

上面的F5是F0.5的简写...

1 回答

2
你可以用以下输出更新你的问题：
```
>>> from sklearn.metrics import classification_report
>>> print classification_report(y_true, y_predicted)
```
这将显示每个类别的精确度和召回以及支持，从而帮助我们理解平均值如何工作并决定这是否是适当的行为 .
回复于 2024-04-29T14:18:26+08:00

在Scikit-learn中，F1小于精度和召回

1 回答

相关问题