这个问题在这里已有答案:
使用get_dummies方法一次热编码多个分类变量似乎很容易,但是如何记住哪个是哪个,以便我的测试数据具有与我的训练数据相同的功能?例如:
我的训练数据集具有CATEGORICAL功能:
X
cat
dog
lion
lion
在get_dummies之后,我得到了这样的东西:
X_1 X_2 X_3
1 0 0
0 1 0
0 0 1
0 0 1
在训练模型之后,我准备测试我真棒的魔法模型,这里是测试数据:
X
cat
cat
lion
如果我应用pd.get_dummies方法,我会得到这样的东西:
X_1 X_2
1 0
1 0
0 1
这将与我的列车数据功能不一致,我根本无法将我的模型应用于测试数据 .
任何建议,以便我可以获得如下的一些?
X_1 X_2 X_3
1 0 0
1 0 0
0 0 1
如何获得拟合和转换功能?再次,我有超过50个分类功能,我不能逐个应用LabelEncoder和One_Hot_Encoder .
有什么建议吗?谢谢 .
1 回答
我将get_dummies用于所有数据,之后我将其分为训练和测试 .