首页 文章

使用熵的加权决策树

提问于
浏览
8

我正在使用mutual information gain作为拆分函数构建二进制分类树 . 但由于训练数据偏向于几个类,因此建议通过反类频率对每个训练示例进行加权 .

如何加权训练数据?在计算估算熵的概率时,我是否采用加权平均值?

编辑:我想用权重表示熵 .

2 回答

  • 4
  • 2

    你引用的维基百科文章涉及加权 . 它说:

    Weighted variants
    在传统的互信息表达中,

    alt text

    由(x,y)指定的每个事件或对象由相应的概率p(x,y)加权 . 这假定所有对象或事件与其发生概率不同 . 然而,在某些应用中,某些对象或事件可能比其他应用更重要,或者某些关联模式在语义上比其他模式更重要 .

    例如,确定性映射{(1,1),(2,2),(3,3)}可被视为比确定性映射{(1,3),(2,1)更强(通过某种标准) ),(3,2)},虽然这些关系会产生相同的互信息 . 这是因为互信息对变量值中的任何固有排序都不敏感(Cronbach 1954,Coombs&Dawes 1970,Lockhead 1970),因此对相关变量之间的关系映射的形式根本不敏感 . . 如果希望前一种关系 - 显示所有变量值的一致性 - 被判断为强于后一种关系,则可以使用以下加权互信息(Guiasu 1977)

    alt text

    它将权重w(x,y)放在每个变量值共现的概率p(x,y)上 . 这允许某些概率可能比其他概率具有或多或少的重要性,从而允许量化相关的整体或prügnanz因子 . 在上面的例子中,对w(1,1),w(2,2)和w(3,3)使用较大的相对权重将具有评估关系的更大信息量的效果{(1,1),( 2,2),(3,3)},而不是关于{(1,3),(2,1),(3,2)}的关系,这在模式识别的某些情况下可能是期望的,等等 .

    http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

相关问题