我有一个数据集,其中包含14列和111256行 . 最后一列包含id,将用作目标列(Y) . 使用Train后,测试拆分scikitlearn树分类器实现 .

来自sklearn.ensemble import RandomForestClassifier forest = RandomForestClassifier(n_estimators = 100)forest = forest.fit(X,Y)

这种预测的结果是完美的 . 我可以说它应该是完美的 . 因为,此数据包含预测列 . 在此之后我也可以使用pickle dump导出结果 . 问题是,当我使用包含具有空值的预测列的看不见的测试数据时 . 我得到了完全错误的预测值 . (使用此命令)

predic = forest.predict(Test_Data)

任何线索如何从这里开始 . 我尝试了不同的技术,但没有用 . 例如,我曾经将所有空值转换为0,但结果不是我想要的 . 因为,在RF的文档中,它是用于预测目的的良好算法 . 如果您认为我做错了,请告诉我 . 我将非常感激 . 先感谢您 .