它不能为pyspark中的随机森林指定 minInstancesPerNode
. 我在scala代码中看不到它,但它在spark R library和documentation中提到过 . 它说:
minInstancesPerNode:对于要进一步拆分的节点,其每个子节点必须至少接收此数量的训练实例 . 这通常与RandomForest一起使用,因为它们通常比单个树更深地训练 .
是否可以在spark(pyspark specificaly)中将此参数用于随机森林?
它不能为pyspark中的随机森林指定 minInstancesPerNode
. 我在scala代码中看不到它,但它在spark R library和documentation中提到过 . 它说:
minInstancesPerNode:对于要进一步拆分的节点,其每个子节点必须至少接收此数量的训练实例 . 这通常与RandomForest一起使用,因为它们通常比单个树更深地训练 .
是否可以在spark(pyspark specificaly)中将此参数用于随机森林?
1 回答
根据docs,
minInstancesPerNode
是pyspark.ml.classification.RandomForestClassifier
的输入参数 .您可能正在查看RandomForest的不同实现,也许是
mllib
.