首页 文章

在信息增益修剪功能的上下文中alpha的含义是什么?

提问于
浏览
1

在PST包中,我们使用值 C 作为用于修剪树的信息增益函数的截止值 . α为0.05的 C 值计算如下:

C95 <- qchisq(0.95, 1) / 2

C 值基于0.05的alpha值是什么意思?这是否意味着我们需要至少95%确定附加节点与先前节点相比添加更多信息,以便通过修剪算法保留它?

1 回答

  • 1

    您的问题涉及在 prune 函数中使用 gain="G2" ,并且关于此增益函数的阈值选择 C .

    用于检查分支是否可被修剪的G2增益函数的两倍实际上是比较修剪分支之前和之后树的可能性的似然比检验统计 . 在假设被测分支不添加任何信息的情况下,统计2 * G2具有卡方分布 . 因此,当差异不具有统计显着性时,即只要G2值不超过给定显着性水平的阈值,就修剪分支 .

    alpha是统计测试中常用的重要级别 . 通常为1%或5% . 选择alpha = 0.05意味着由于样本的随机性,有5%的机会错误地修剪分支 .

相关问题