Scikit Decistion Tree Visualization：错误值的含义

提问于 2024-05-02T21:24:04+08:00

浏览次

5

我是机器学习的初学者，正在尝试使用决策树 . 我正在查看决策树http://scikit-learn.org/dev/_images/iris.svg的这种可视化，并想知道错误值表示什么 . 它是基尼指数或信息收益还是什么？也会欣赏它的直观含义 .

1 回答

2

在此具体示例中，节点的“错误”是到达该节点的所有示例的Gini索引 .

通常，节点的“误差”取决于具体的杂质标准（例如，用于分类的基尼或熵以及用于回归的均方误差） .

直观地，您可以将杂质标准（基尼系数和熵）视为衡量多组均匀性的指标 . 如果多集合主要包含一种类型的元素（这也称为“纯”，因此称为“杂质标准”），则它是同质的 . 在我们的例子中，多集的元素是到达相应节点的类标签 . 当我们分割一个节点时，我们希望得到的分区是纯粹的 - 这意味着类很好地分离（一个分区主要包含一个类的实例） .

在 criterion="entropy" 和二进制分类的情况下，误差为1.0意味着节点中存在相同数量的正和负示例（最不均匀的多集） .

您可以通过其 tree_ 属性访问作为 DecisionTreeClassifier 或 DecisionTreeRegressor 基础的树数据结构，该属性包含扩展类型 sklearn.tree._tree.Tree 的on对象 . 此对象将树表示为一系列并行的numpy数组 . 数组 init_error 保存每个节点的初始错误;如果节点是拆分节点，则 best_error 保存两个分区的错误总和 . 有关详细信息，请参阅https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/tree/_tree.pyx#L45中的类文档 .

回复于 2024-05-02T21:24:04+08:00

相关问题