新/预测数据的多重插补-Java 学习之路

有人可以帮我理解如何处理新的/看不见的数据中的缺失值吗？我在R中研究了一些多个插补包，所有这些都只是为了训练和测试集（同时） . 那么你如何处理新的未标记数据以与训练/测试相同的方式进行估算？基本上，我想对训练/测试集中的缺失值使用多个插补，并且对预测器数据也使用相同的模型/方法 . 根据我对多重插补的研究（不是专家），用MI做这个似乎不可行吗？但是，例如，使用插入符号，您可以轻松地使用与训练/测试中使用的相同模型来获取新数据 . 任何帮助将不胜感激 . 谢谢 .

**编辑

基本上，我的数据集包含许多缺失值 . 删除不是一个选项，因为它将丢弃我的大部分火车/测试集 . 到目前为止，我已经编码了分类变量，删除了近零方差和高相关变量 . 在这个预处理之后，我能够轻松地应用鼠标包进行插补

m=mice(sg.enc)

此时，我可以使用pool命令将模型应用于插补数据集 . 这很好 . 但是，我知道未来的数据会有缺失的值，并希望以某种方式逐步应用这个MI？

1 回答

0

它没有多重插补，但yaImpute包有一个predict（）函数来估算新数据的值 . 我使用训练数据（包括NA）进行测试以创建“yai”对象，然后通过predict（）使用该对象来估算新测试数据集中的值 . 与Caret preProcess（）不同，yaImpute在其knn算法中支持因子变量（至少为它们输入值） . 我还没有测试因子是否可以成为缺失目标变量“预测因子”的一部分 . 除了knn之外，yaImpute还支持其他插补方法 .

回复于 2024-04-26T02:56:32+08:00

新/预测数据的多重插补

1 回答

相关问题