Overview
我在游侠R中使用随机森林实现对文档进行分类 .
现在我面临一个问题,系统期望Train集中的所有功能都存在于实时数据集中,这是不可能实现的,因此我无法预测实时数据文本 .
Procedure following
Aim :预测描述属于哪种类型(即OutputClass)
描述,特征等每个信息都转换为文档术语矩阵
列车集的文档术语矩阵
rpm Velocity Speed OutputClass
doc1 1 0 1 fan
doc2 1 1 1 fan
doc3 1 0 1 referigirator
doc4 1 1 1 washing machine
doc5 1 1 1 washing machine
现在使用上述矩阵训练模型
fit <- ranger(trainingColumnNames,data=trainset)
save(fit,file="C:/TrainedObject.rda”)
现在我使用上面存储的对象来预测其类类型的实时描述 .
Load("C:/TrainedObject.rda”)
再次构造RealTimeData的Document矩阵 .
Velocity Speed OutputClass
doc5 0 1 fan
doc6 1 1 fan
doc7 0 1 referigirator
doc8 1 1 washing machine
doc9 1 1 washing machine
在实时数据中,没有名称“RPM”的术语或特征 . 所以当我打电话预测功能
Predict(fit, RealTimeData)
它显示错误,表示RPM丢失,
实际上每次都不可能在实时数据中获得列车的所有术语或特征 .
我尝试在R(Ranger,RandomForest)中使用参数预测函数实现随机森林,如newdata Predict.all treetype .
这些参数都没有帮助预测实时数据中缺失的特征 .
有人请帮我解决上述问题
提前致谢
1 回答
predict
期待您为Ranger提供的所有功能 . 因此,如果您在测试集上缺少数据,则可以从列车集中删除有问题的功能并再次运行游侠或填充缺失的值 . 对于后一种解决方案,您可能需要查看mice
包 .