我正在 Build 一个随机森林分类模型,响应变量分割为98%(假)-2%(真) . 我正在使用Scikit Learn的RandomForest分类器 .
处理这种不 balancer 数据并避免过采样的最佳方法是什么?
您可以使用参数 class_weight .
class_weight
与表格中的类相关的权重 {class_label: weight}
{class_label: weight}
您可以为您的小班授予更多权重,并使用交叉验证找到最佳体重 .
例如 class_weight={1: 10, 0:1} . 给标记为1的 class 增加了更多的重量 .
class_weight={1: 10, 0:1}
在较新版本的sklearn随机森林分类器中,您只需设置class_weight =“balanced”即可 .
2 回答
您可以使用参数
class_weight
.与表格中的类相关的权重
{class_label: weight}
您可以为您的小班授予更多权重,并使用交叉验证找到最佳体重 .
例如
class_weight={1: 10, 0:1}
. 给标记为1的 class 增加了更多的重量 .在较新版本的sklearn随机森林分类器中,您只需设置class_weight =“balanced”即可 .