首页 文章

决策树中的Shannon熵测度

提问于
浏览
4

为什么Shannon的熵测量用于决策树分支?

熵(S)= - p()log(p()) - p( - )log(p( - ))

我知道这是衡量否定的标准 . 编码信息所需的比特数;分布越均匀,熵越多 . 但我不明白为什么它经常应用于创建决策树(选择一个分支点) .

3 回答

  • 1

    因为您想提出能够为您提供最多信息的问题 . 目标是最小化树中的决策/问题/分支的数量,因此您从提供最多信息的问题开始,然后使用以下问题填写详细信息 .

  • 2

    为了决策树,忘记位数,只关注公式本身 . 考虑二进制(/ - )分类任务,您的训练数据中有相同数量的和 - 示例 . 最初,自 p(+) = p(-) = 0.5 以来,熵将为1 . 您希望在最能降低熵的属性上拆分数据(即,使类的分布最不随机) . 如果选择与类完全无关的属性A1,则在将数据分割为A1后,熵仍为1,因此熵没有减少 . 现在假设另一个属性A2完全分离了类(例如,对于 A2="yes" ,类始终为 + ,对于 A2="no" ,始终为 - . 在这种情况下,熵为零,这是理想情况 .

    在实际情况中,属性通常不能完美地对数据进行分类(熵大于零) . 因此,您选择“最佳”对数据进行分类的属性(提供最大的熵减少) . 一旦以这种方式分离数据,就以类似的方式为来自第一次分割的每个分支选择另一个属性,以进一步减少沿该分支的熵 . 继续该过程以构建树 .

  • 5

    你似乎对方法背后的数学有了解,但是这里有一个简单的例子可能会让你对使用这种方法的原因有所了解:想象一下你在一个被100名学生占用的教室里 . 每个学生都坐在办公桌前,办公桌有10行10列 . 100名学生中有1名获得了奖品,但您必须猜出哪名学生获得奖品 . 问题是,每当你猜到,奖金的 Value 就会减少 . 您可以先向每个学生分别询问他们是否有奖品 . 然而,最初,你只有1/100的机会正确猜测,并且很可能在你找到奖品时它将毫无 Value (将每一个猜测视为决策树中的一个分支) . 相反,您可以提出广泛的问题,这些问题会大大减少每个问题的搜索空间 . 例如“学生在第1行到第5行的哪个位置?”无论答案是“是”还是“否”,您都将树中潜在分支的数量减少了一半 .

相关问题