我正在使用来自Weka 3.7.11的RandomForest,而后者正在装袋Weka的RandomTree . 我的输入属性是数字,输出属性(标签)也是数字 .
在训练RandomTree时,为树的每个节点随机选择K个属性 . 尝试基于这些属性的若干分裂,并选择“最佳”分裂 . Weka如何确定这个(数字)案例中最好的分裂?
对于名义属性,我认为Weka正在使用基于条件熵的information gain标准 .
IG(T|a) = H(T) - H(T|a)
类似的东西用于数字属性吗?也许是差分熵?
1 回答
当树在数字属性上拆分时,它会在
a>5
之类的条件下拆分 . 因此,这种情况实际上变成了二元变量,标准(信息增益)完全相同 .附:对于通常使用的回归是平方误差的总和(对于每个叶子,然后对叶子求和) . 但我不清楚Weka