我正在使用数字功能,我想在sklearn中使用决策树分类器来查找要素重要性 .
因此,如果我选择用于分裂的熵标准,则使用信息增益作为分割数据的杂质的度量 . 我猜,这相当于Fayyad和Irani二元离散化 .
最后,分类器返回一个名为“feature importances”的属性 .
功能重要性 . 功能越高,功能越重要 . 特征的重要性计算为该特征带来的标准的(标准化的)总减少量 . 它也被称为基尼的重要性[R195] .
我的问题是,即使我使用信息增益来找到最佳分割,“特征重要性”是否会返回在使用熵标准找到的分割中测量的基尼重要性的值?
1 回答
是!有一种迭代方法可以计算不同分裂点的基尼重要性,一旦达到终止标准(最小描述长度),就会返回最佳分裂点 . 您可以在此处找到有关玩具示例的更多信息:http://clear-lines.com/blog/post/Discretizing-a-continuous-variable-using-Entropy.aspx