我正在使用 RandomForest.trainClassifier
.
支持的参数是:
-
输入
-
numClasses
-
categoricalFeaturesInfo
-
numTrees
-
featureSubsetStrategy
-
杂质
-
maxDepth
-
maxBins
-
种子
但是Scala中提供了额外的参数,如 useNodeIdCache
, checkpointDir
和 checkpointInterval
.
如何在PySpark中实现这些功能?
1 回答
pyspark.mllib
处于维护模式并且开发时间较长(不会添加对这些功能的访问) . 如果您使用全功能API,请使用pyspark.ml
,它提供:setCacheNodeIds
setCheckpointInterval