关于决策树和随机森林分类器（scikit）的疑问-Java 学习之路

-1

我是决策树的新手，所以这些都是微不足道的问题 .

决策树：

根据scikit doc（http://scikit-learn.org/stable/modules/tree.html），"predict_proba"函数返回每个类的概率，即叶子中同一类的训练样本的分数 . 这到底是什么意思呢 .

随机森林分类器：

在随机森林分类器中采用替换（引导）样本的优势是什么？与粘贴相比，它提供了哪些额外的好处，即获取数据集的随机子集（http://scikit-learn.org/stable/modules/ensemble.html）
scikit随机林分类器中有一个参数为" bootstrap_features"（使用或不使用替换绘制要素） . 用替换绘制特征到底意味着什么？根据我在种植树木时的理解，你不能再使用相同的功能 . 那么更换一个功能到底是什么意思呢？
从随机森林分类器学习变量重要性背后的直觉是什么？

1 回答

1

DT

根据scikit doc（http://scikit-learn.org/stable/modules/tree.html），“predict_proba”函数返回每个类的概率，这是一个叶子中同一类的训练样本的分数 . 这到底是什么意思呢 .

如果你没有限制地种植你的树 - 它意味着什么，预测proba总是输出100％ . 但是，如果你以某种方式限制树的大小（例如通过max_depth），那么一些叶子实际上将最终得到来自 different classes 的样本，然后预测proba，如果分类在这样的叶子中完成，则返回每个类与每个类别成比例的概率这片叶子里的样品 . 例如，你得到一个叶子，其中3个样本来自1级，2个来自2级，然后如果你最终在这个叶子中你输出[0.6 0.4]（3 /（3 2）= 3/5 = 0.6 = 60 ％是你应该分配1级的概率，而2 /（3 2）= 2/5 = 0.4 = 40％ .

RF 1

在随机森林分类器中采用替换（引导）样本的优点是什么？与Pasting相比，它提供了哪些额外的好处，即获取数据集的随机子集（http://scikit-learn.org/stable/modules/ensemble.html）

它使您的训练集大小与原始训练集相同，因此您可以或多或少地使用与单个树相同的超参数范围 . 此外，这使得训练集更加多样化（因为您对一些样本进行了人工“提升”，这些样本被多次绘制） . 它还具有更好的统计特性，从而可以更好地估计估计量的属性（例如其泛化能力）

RF 2

scikit随机森林分类器中有一个参数为“bootstrap_features”（使用或不使用替换绘制要素） . 用替换绘制特征到底意味着什么？根据我在种植树木时的理解，你不能再使用相同的功能 . 那么更换一个功能到底是什么意思呢？

No, there is not

class sklearn.ensemble.RandomForestClassifier（n_estimators = 10，criterion ='gini'，max_depth = None，min_samples_split = 2，min_samples_leaf = 1，min_weight_fraction_leaf = 0.0，max_features ='auto'，max_leaf_nodes = None，bootstrap = True，oob_score = False，n_jobs = 1，random_state = None，verbose = 0，warm_start = False，class_weight = None

也许你的意思是通用Bagging？然后，您可以多次使用每个功能 .

RF 3

从随机森林分类器学习变量重要性背后的直觉是什么？

这只是衡量树中每个特征使用多少样本的一个度量，因此 - 降低分数，如果从数据集中删除此特征，则丢失的次数越少 . 您可以通过各种方式使用它，包括功能选择，数据分析反馈等 .

用作树中的决策节点的特征的相对等级（即深度）可用于评估该特征相对于目标变量的可预测性的相对重要性 . 使用在树顶部使用的特征有助于大部分输入样本的最终预测决策 . 因此，它们贡献的样品的预期分数可以用作特征的相对重要性的估计 .

回复于 2024-04-28T05:23:15+08:00

关于决策树和随机森林分类器（scikit）的疑问

1 回答

DT

RF 1

RF 2

RF 3

相关问题