在随机森林回归器中处理缺失的分类特征值的指南-Java 学习之路

在使用Random Forest Regressor（或任何集成学习者）时，处理缺失的分类特征值的一般准则是什么？我知道scikit learn具有估算缺失值（数值）的函数（如均值...策略或接近度） . 但是，如何处理缺失的分类 Value ：像工业（石油，计算机，汽车， None ），专业（学士，硕士，博士， None ） .

任何建议表示赞赏 .

1 回答

1

随机森林的发明者布莱曼和卡特勒提出了两种可能的策略（见http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1）：

随机森林有两种方法可以替换缺失值 . 第一种方式很快 . 如果第m个变量不是分类变量，则该方法计算类j中此变量的所有值的中值，然后使用该值替换类j中第m个变量的所有缺失值 . 如果第m个变量是分类的，则替换是类j中最常见的非缺失值 . 这些替换值称为填充 . 替换缺失值的第二种方法在计算上更昂贵，但是即使存在大量缺失数据，也提供了比第一种更好的性能 . 它仅在训练集中替换缺失值 . 它首先填写缺失值的粗略和不准确的填充 . 然后它执行森林运行并计算邻近度 .

或者，将标签变量暂时搁置一分钟，您可以使用分类器中的所有要素，对具有相关分类变量的非空值的行训练分类器 . 然后使用此分类器在“测试集”中预测有问题的分类变量的值 . 有了更完整的数据集，您现在可以返回到预测原始标签变量值的任务 .

回复于 2024-04-25T08:51:48+08:00

在随机森林回归器中处理缺失的分类特征值的指南

1 回答

相关问题