我想知道为什么随机森林分类不支持Spark中的大量观察 . 如果我给超过7500我得到
org.apache.spark.SparkException:由于阶段失败而中止作业:阶段4.0中的任务0失败1次,最近失败:阶段4.0中丢失的任务0.0(TID 7,localhost):java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE的
这是由于Spark的限制 . spark中块的底层抽象是ByteBuffer,它将块的大小限制为2GB . 这不仅对使用中的托管块有影响,而且对于随机块也有影响 . 在非平凡数据集上使用时,这是spark的问题 .
1 回答
这是由于Spark的限制 . spark中块的底层抽象是ByteBuffer,它将块的大小限制为2GB . 这不仅对使用中的托管块有影响,而且对于随机块也有影响 . 在非平凡数据集上使用时,这是spark的问题 .