首页 文章

R中的RandomForest具有大量功能

提问于
浏览
1

我有大约10,000个样本和9,000个功能 . 我正在尝试使用RandomForest(RF或GRF)进行特征(变量)选择/缩减 .

当我使用700个功能时,这个概念很有用,但是对于9,000个,当我尝试运行randomForest或RRF时,即使有1个树(甚至使用mtry = 1),我等待几个小时也没有任何反应 . (仅供参考,我使用sampsize = 800)

我希望至少能够运行1棵单树,然后再使用多台计算机并进行组合 .

有什么想法可以帮忙吗

罗尼

1 回答

  • 0

    我一直在处理同样的问题,我解决如下:

    • 将您的9000个功能划分为9组,每组包含1000个10K样本的功能

    • 为每个子组运行特征选择,并从每个子组中选择300个最具信息性的特征

    • 合并选定的9 * 300功能并重复步骤1和2

    • 最后,您将获得300个功能

    这种方法可能会导致一些重要功能的丢失,但它通常会选择信息量最大的功能 . 顺便说一下,您可以根据需要更改所选的特征尺寸(在给定示例中为300) .

    据我所知,没有其他方法可以找到最佳特征子集而不是蛮力,而不会丢失重要特征 .

相关问题