首页 文章

Scikit Decistion Tree Visualization:错误值的含义

提问于
浏览
5

我是机器学习的初学者,正在尝试使用决策树 . 我正在查看决策树http://scikit-learn.org/dev/_images/iris.svg的这种可视化,并想知道错误值表示什么 . 它是基尼指数或信息收益还是什么?也会欣赏它的直观含义 .

1 回答

  • 2

    在此具体示例中,节点的“错误”是到达该节点的所有示例的Gini索引 .

    通常,节点的“误差”取决于具体的杂质标准(例如,用于分类的基尼或熵以及用于回归的均方误差) .

    直观地,您可以将杂质标准(基尼系数和熵)视为衡量多组均匀性的指标 . 如果多集合主要包含一种类型的元素(这也称为“纯”,因此称为“杂质标准”),则它是同质的 . 在我们的例子中,多集的元素是到达相应节点的类标签 . 当我们分割一个节点时,我们希望得到的分区是纯粹的 - 这意味着类很好地分离(一个分区主要包含一个类的实例) .

    criterion="entropy" 和二进制分类的情况下,误差为1.0意味着节点中存在相同数量的正和负示例(最不均匀的多集) .

    您可以通过其 tree_ 属性访问作为 DecisionTreeClassifierDecisionTreeRegressor 基础的树数据结构,该属性包含扩展类型 sklearn.tree._tree.Tree 的on对象 . 此对象将树表示为一系列并行的numpy数组 . 数组 init_error 保存每个节点的初始错误;如果节点是拆分节点,则 best_error 保存两个分区的错误总和 . 有关详细信息,请参阅https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/tree/_tree.pyx#L45中的类文档 .

相关问题