首页 文章

特征与树木森林的重要性

提问于
浏览
-1

我试图找出我的功能的重要性,并想了解树林如何运作?根据我的理解,它使决策树和条形图显示该特征解释了多少方差,这反过来显示了特征的重要性 . 我还想看看图表末尾的线条是什么意思?

链接到方法:http://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html#sphx-glr-auto-examples-ensemble-plot-forest-importances-py

这是正确的理解吗?

Bar graph showing feature importance

谢谢

1 回答

  • 0

    随机森林由许多决策树组成 . 决策树中的每个节点都是单个要素上的条件,旨在将数据集拆分为两个,以便类似的响应值最终出现在同一个集合中 . 选择(局部)最佳条件的度量称为杂质 . 对于分类,通常是基尼杂质或信息增益/熵,对于回归树,它是方差 . 因此,当训练树时,可以计算每个特征减少树中加权杂质的程度 . 对于森林,可以对每个特征的杂质减少进行平均,并且根据该度量对特征进行排序 .

    然而,重要的是要注意随机森林中的feature_importances_不一定预测每个特征的正确等级 . 两个高度相关的特征可以在等级表的相对侧 . 如果您放弃错误排名的功能,这不会影响模型的性能 . 但是,知道每个功能的重要性并不是一种可靠的方法 . 为了解决这个限制,我使用顺序后向选择 .

相关问题