我有缺少值的数据,我想为它构建一个分类器 . 我知道scikit-learn将帮助您为丢失的数据估算值 . 但是,就我而言,目前尚不清楚这是正确的做法,甚至不容易 . 问题是数据中的特征是相关的,所以现在以明智的方式进行这种估算并不明显 .
我知道在R中,一些分类器(决策树,随机森林)可以直接处理缺失值而无需进行任何估算 .
scikit中的任何分类器能否同样学习0.16.1,如果是这样,我应该如何表示缺失值来帮助它?
我已经阅读了关于scikit的讨论,了解了关于这个主题的github,但是我无法解决实际已经实现的内容和没有实现的内容 .
1 回答
scikit-learn中的RandomForest目前不处理缺失值[截至0.16和即将推出的0.17],您需要先测量这些值 .