首页 文章

关于使用Ranger在RandomForest实现中使用预测

提问于
浏览
0

Overview

我在游侠R中使用随机森林实现对文档进行分类 .

现在我面临一个问题,系统期望Train集中的所有功能都存在于实时数据集中,这是不可能实现的,因此我无法预测实时数据文本 .

Procedure following

Aim :预测描述属于哪种类型(即OutputClass)

描述,特征等每个信息都转换为文档术语矩阵

列车集的文档术语矩阵

rpm      Velocity     Speed           OutputClass 

      doc1                          1             0             1            fan
      doc2                          1             1             1            fan
      doc3                          1             0             1            referigirator
      doc4                          1             1             1            washing machine
      doc5                          1             1             1            washing machine

现在使用上述矩阵训练模型

fit <- ranger(trainingColumnNames,data=trainset)
save(fit,file="C:/TrainedObject.rda”)

现在我使用上面存储的对象来预测其类类型的实时描述 .

Load("C:/TrainedObject.rda”)

再次构造RealTimeData的Document矩阵 .

Velocity           Speed     OutputClass 

      doc5                                      0               1              fan
      doc6                                      1               1              fan
      doc7                                      0               1            referigirator
      doc8                                      1               1            washing machine
      doc9                                      1               1            washing machine

在实时数据中,没有名称“RPM”的术语或特征 . 所以当我打电话预测功能

Predict(fit, RealTimeData)

它显示错误,表示RPM丢失,

实际上每次都不可能在实时数据中获得列车的所有术语或特征 .

我尝试在R(Ranger,RandomForest)中使用参数预测函数实现随机森林,如newdata Predict.all treetype .

这些参数都没有帮助预测实时数据中缺失的特征 .

有人请帮我解决上述问题

提前致谢

1 回答

  • 0

    predict 期待您为Ranger提供的所有功能 . 因此,如果您在测试集上缺少数据,则可以从列车集中删除有问题的功能并再次运行游侠或填充缺失的值 . 对于后一种解决方案,您可能需要查看 mice 包 .

相关问题