首页 文章

严重不 balancer 数据集要考虑的度量标准

提问于
浏览
-1

我正试图在 Python 中对严重不 balancer 的数据进行 GradientBoosting 模型的训练 . 对于0级和1级,类分布类似于 0.96 : 0.04 .

在考虑了 recallprecision 得分进行一些参数调整之后,我想出了一个很好的模型 . 对于验证集,不同的度量分数如下所示 . 此外,它接近交叉验证分数 .

recall : 0.928777 precision : 0.974747 auc : 0.9636 kappa : 0.948455 f1 weighted : 0.994728

如果我想进一步调整模型,我应该考虑增加哪些指标 . 在我的问题中,错误分类1为0比错误预测0更有问题1 .

1 回答

  • 1

    在处理类不 balancer 问题时,有各种技术可以使用 . 几个如下所述:

    (链接包括蟒蛇 imblearn packagecostcla package

    在我的问题中,错误分类1为0比错误预测0更有问题1 .

    在使用 costcla 包的成本敏感学习中,您应该尝试following方法,将基本分类器保持为GradientBoostingRegressor:

    costcla.sampling.cost_sampling(X, y, cost_mat, method='RejectionSampling', oversampling_norm=0.1, max_wc=97.5)
    

    在这里,您可以为列车中的每个数据点加载cost_mat [C_FP,C_FN,C_TP,C_TN]并进行测试 . C_FP和C_FN基于您要为正数和负数类设置的错误分类成本 . 请参阅有关信用评分数据here的完整教程 .

相关问题