决策树二进制分类器快捷方式（排序）-Java 学习之路

通常，在决策树的每个节点处，我们考虑每个特征的所有特征和所有分裂点 . 我们计算整个节点的熵与潜在左右分支的熵的加权平均值之间的差异，并且选择给出我们最大熵降的特征分裂feature_value作为该特定节点的分裂标准 .

有人可以解释为什么上述过程需要（2 ^ m -2）/ 2在每个节点尝试 for each feature ，其中m是节点上不同feature_values的数量，与 trying ONLY m-1 splits 相同：

这个“仅尝试m-1分裂”的方法在下面的文章中被称为“快捷方式”，其中（根据“快捷方式”的定义）意味着两种方法在运行时大不相同的结果完全相同 .

引用：“对于回归和二元分类问题，K = 2响应类，有一个计算捷径[1] . 树可以通过平均响应（用于回归）或类别概率对其中一个类别进行排序（对于然后，最优分裂是有序列表的L-1分裂之一 . “

请注意，我只谈论分类变量 .

1 回答