首页 文章

关于决策树和随机森林分类器(scikit)的疑问

提问于
浏览
-1

我是决策树的新手,所以这些都是微不足道的问题 .

决策树:

随机森林分类器:

  • 在随机森林分类器中采用替换(引导)样本的优势是什么?与粘贴相比,它提供了哪些额外的好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html

  • scikit随机林分类器中有一个参数为" bootstrap_features"(使用或不使用替换绘制要素) . 用替换绘制特征到底意味着什么?根据我在种植树木时的理解,你不能再使用相同的功能 . 那么更换一个功能到底是什么意思呢?

  • 从随机森林分类器学习变量重要性背后的直觉是什么?

1 回答

  • 1

    DT

    根据scikit doc(http://scikit-learn.org/stable/modules/tree.html),“predict_proba”函数返回每个类的概率,这是一个叶子中同一类的训练样本的分数 . 这到底是什么意思呢 .

    如果你没有限制地种植你的树 - 它意味着什么,预测proba总是输出100% . 但是,如果你以某种方式限制树的大小(例如通过max_depth),那么一些叶子实际上将最终得到来自 different classes 的样本,然后预测proba,如果分类在这样的叶子中完成,则返回每个类与每个类别成比例的概率这片叶子里的样品 . 例如,你得到一个叶子,其中3个样本来自1级,2个来自2级,然后如果你最终在这个叶子中你输出[0.6 0.4](3 /(3 2)= 3/5 = 0.6 = 60 %是你应该分配1级的概率,而2 /(3 2)= 2/5 = 0.4 = 40% .

    RF 1

    在随机森林分类器中采用替换(引导)样本的优点是什么?与Pasting相比,它提供了哪些额外的好处,即获取数据集的随机子集(http://scikit-learn.org/stable/modules/ensemble.html)

    它使您的训练集大小与原始训练集相同,因此您可以或多或少地使用与单个树相同的超参数范围 . 此外,这使得训练集更加多样化(因为您对一些样本进行了人工“提升”,这些样本被多次绘制) . 它还具有更好的统计特性,从而可以更好地估计估计量的属性(例如其泛化能力)

    RF 2

    scikit随机森林分类器中有一个参数为“bootstrap_features”(使用或不使用替换绘制要素) . 用替换绘制特征到底意味着什么?根据我在种植树木时的理解,你不能再使用相同的功能 . 那么更换一个功能到底是什么意思呢?

    No, there is not

    class sklearn.ensemble.RandomForestClassifier(n_estimators = 10,criterion ='gini',max_depth = None,min_samples_split = 2,min_samples_leaf = 1,min_weight_fraction_leaf = 0.0,max_features ='auto',max_leaf_nodes = None,bootstrap = True,oob_score = False,n_jobs = 1,random_state = None,verbose = 0,warm_start = False,class_weight = None

    也许你的意思是通用Bagging?然后,您可以多次使用每个功能 .

    RF 3

    从随机森林分类器学习变量重要性背后的直觉是什么?

    这只是衡量树中每个特征使用多少样本的一个度量,因此 - 降低分数,如果从数据集中删除此特征,则丢失的次数越少 . 您可以通过各种方式使用它,包括功能选择,数据分析反馈等 .

    用作树中的决策节点的特征的相对等级(即深度)可用于评估该特征相对于目标变量的可预测性的相对重要性 . 使用在树顶部使用的特征有助于大部分输入样本的最终预测决策 . 因此,它们贡献的样品的预期分数可以用作特征的相对重要性的估计 .

相关问题