首页 文章

如何在gbm包中定义权重,为类不 balancer 数据集(gbm)定义Kappa统计量

提问于
浏览
0

我想找到一种方法来为插入符号包中的gbm定义权重 . “caret”包的“train”函数中有一个参数“weights”,但描述中写着“此参数只会影响允许大小写权重的模型” . 根据我的理解,“gbm”确实支持定义权重,但我不知道定义权重的格式 . 它只是c(1,10) - 其中1是多数类,10是少数类?

第二个问题是关于Kappa统计数据 . 我读到Kappa对于类不 balancer 数据集来说是一个更好的性能指标,但却无法理解 . 我将理解为什么Kappa与类别不 balancer 数据集的ROC相比是更好的性能指标的一些指导 .

谢谢 .

2 回答

  • 1

    据我所知, gbm 确实支持大小写权重,权重应该是数据帧长度的向量 . 如果你只使用两个 class 我相信你会 have 使用ROC . 我有资格回答你关于ROC与Kappa的问题,但here是2013年的一篇论文,研究了现实世界数据的几个指标的表现 . 一般的消失似乎是虽然kappa可能受到歪斜的影响(ROC似乎相对免疫),但ROC往往掩盖了糟糕的表现 .

  • 0

    在这个article中有一个使用 weights 的例子 . 在你的情况下,它会是这样的

    data$weights <- ifelse(data$class == "major", 1, 10)
    

    然后使用此列作为权重 .

相关问题