我是决策树的新手,所以这些都是微不足道的问题 .
决策树:
- 根据scikit doc(http://scikit-learn.org/stable/modules/tree.html),"predict_proba"函数返回每个类的概率,即叶子中同一类的训练样本的分数 . 这到底是什么意思呢 .
随机森林分类器:
-
在随机森林分类器中采用替换(引导)样本的优势是什么?与粘贴相比,它提供了哪些额外的好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html)
-
scikit随机林分类器中有一个参数为" bootstrap_features"(使用或不使用替换绘制要素) . 用替换绘制特征到底意味着什么?根据我在种植树木时的理解,你不能再使用相同的功能 . 那么更换一个功能到底是什么意思呢?
-
从随机森林分类器学习变量重要性背后的直觉是什么?
1 回答
DT
如果你没有限制地种植你的树 - 它意味着什么,预测proba总是输出100% . 但是,如果你以某种方式限制树的大小(例如通过max_depth),那么一些叶子实际上将最终得到来自 different classes 的样本,然后预测proba,如果分类在这样的叶子中完成,则返回每个类与每个类别成比例的概率这片叶子里的样品 . 例如,你得到一个叶子,其中3个样本来自1级,2个来自2级,然后如果你最终在这个叶子中你输出[0.6 0.4](3 /(3 2)= 3/5 = 0.6 = 60 %是你应该分配1级的概率,而2 /(3 2)= 2/5 = 0.4 = 40% .
RF 1
它使您的训练集大小与原始训练集相同,因此您可以或多或少地使用与单个树相同的超参数范围 . 此外,这使得训练集更加多样化(因为您对一些样本进行了人工“提升”,这些样本被多次绘制) . 它还具有更好的统计特性,从而可以更好地估计估计量的属性(例如其泛化能力)
RF 2
No, there is not
也许你的意思是通用Bagging?然后,您可以多次使用每个功能 .
RF 3
这只是衡量树中每个特征使用多少样本的一个度量,因此 - 降低分数,如果从数据集中删除此特征,则丢失的次数越少 . 您可以通过各种方式使用它,包括功能选择,数据分析反馈等 .