首页 文章

新/预测数据的多重插补

提问于
浏览
3

有人可以帮我理解如何处理新的/看不见的数据中的缺失值吗?我在R中研究了一些多个插补包,所有这些都只是为了训练和测试集(同时) . 那么你如何处理新的未标记数据以与训练/测试相同的方式进行估算?基本上,我想对训练/测试集中的缺失值使用多个插补,并且对预测器数据也使用相同的模型/方法 . 根据我对多重插补的研究(不是专家),用MI做这个似乎不可行吗?但是,例如,使用插入符号,您可以轻松地使用与训练/测试中使用的相同模型来获取新数据 . 任何帮助将不胜感激 . 谢谢 .

**编辑

基本上,我的数据集包含许多缺失值 . 删除不是一个选项,因为它将丢弃我的大部分火车/测试集 . 到目前为止,我已经编码了分类变量,删除了近零方差和高相关变量 . 在这个预处理之后,我能够轻松地应用鼠标包进行插补

m=mice(sg.enc)

此时,我可以使用pool命令将模型应用于插补数据集 . 这很好 . 但是,我知道未来的数据会有缺失的值,并希望以某种方式逐步应用这个MI?

1 回答

  • 0

    它没有多重插补,但yaImpute包有一个predict()函数来估算新数据的值 . 我使用训练数据(包括NA)进行测试以创建“yai”对象,然后通过predict()使用该对象来估算新测试数据集中的值 . 与Caret preProcess()不同,yaImpute在其knn算法中支持因子变量(至少为它们输入值) . 我还没有测试因子是否可以成为缺失目标变量“预测因子”的一部分 . 除了knn之外,yaImpute还支持其他插补方法 .

相关问题