首页 文章

在随机森林回归器中处理缺失的分类特征值的指南

提问于
浏览
1

在使用Random Forest Regressor(或任何集成学习者)时,处理缺失的分类特征值的一般准则是什么?我知道scikit learn具有估算缺失值(数值)的函数(如均值...策略或接近度) . 但是,如何处理缺失的分类 Value :像工业(石油,计算机,汽车, None ),专业(学士,硕士,博士, None ) .

任何建议表示赞赏 .

1 回答

  • 1

    随机森林的发明者布莱曼和卡特勒提出了两种可能的策略(见http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1):

    随机森林有两种方法可以替换缺失值 . 第一种方式很快 . 如果第m个变量不是分类变量,则该方法计算类j中此变量的所有值的中值,然后使用该值替换类j中第m个变量的所有缺失值 . 如果第m个变量是分类的,则替换是类j中最常见的非缺失值 . 这些替换值称为填充 . 替换缺失值的第二种方法在计算上更昂贵,但是即使存在大量缺失数据,也提供了比第一种更好的性能 . 它仅在训练集中替换缺失值 . 它首先填写缺失值的粗略和不准确的填充 . 然后它执行森林运行并计算邻近度 .

    或者,将标签变量暂时搁置一分钟,您可以使用分类器中的所有要素,对具有相关分类变量的非空值的行训练分类器 . 然后使用此分类器在“测试集”中预测有问题的分类变量的值 . 有了更完整的数据集,您现在可以返回到预测原始标签变量值的任务 .

相关问题