我正在使用随机森林来估计许多预测变量的重要性(%IncMSE) . 之后,我使用了所有预测变量的组合,但我再次计算它们的重要性 . 即使只使用了两个预测变量,RandomForest也在理论上工作,但我想知道如果mtry参数设置为1是否有意义 . 如果我是正确的,这意味着在每次迭代时随机森林只适合树两个预测因子之一 . 如果我只需要制作一个只有两个预测变量的模型,随机森林就不是我的第一选择,但我不知道在同一篇论文中使用两个不同的统计数据来完成类似的任务是否合理 . 你认为我也应该使用随机森林和两个预测因子吗?或者另一种模式更合适?谢谢
2 回答
是的,这是随机森林的正常操作 . 在每个节点处,它可以仅考虑要分割的所有可能特征的子集 . 如果你有2个功能,是的,它会随机使用其中一个或每个适合 .
如果您在同一个训练集上拟合每棵树,这实际上非常重要 . 没有它,每棵树都是相同的 . 也就是说,通过考虑不同的特征集或不同的数据子集,您可以获得不同的树 .
RDF是否适合取决于数据的性质 . 你有分类功能吗?是的,与其他算法相比,它是一个不错的选择 . 决策边界可能不是轴对齐的吗?那不是一个好的选择 . 虽然RDF的变体可以计算不对齐的决策边界,但R不会 .
试一试,看看你得到了什么样的评估指标?
我觉得你担心是对的 .
其中一些森林算法的工作方式是通过计算选择变量进行拆分的次数,以及树中的哪个点 .
如果变量选择完全是随机的,那么这个统计数据将完全没有意义 .
如果使用加扰方法计算统计数据 - 随机化特征值并计算性能差异 - 这可能不是一个问题,但很难说 .
您可能希望使用另一种方法来衡量重要性,或者至少用于比较 .