我有两个数据帧, train
和 test
. 它们都具有完全相同的列名,其中包含分类字符串功能 .
我正在尝试将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集执行相同的精确映射并将训练的模型应用于它 .
我遇到的问题是,由于 test
小于 train
,它碰巧不包含某些分类功能的所有可能值 . 由于 pandas.get_dummies()
似乎只是查看 data.Series.unique()
来创建新列,因此在以 train
和 test
的相同方式添加虚拟列之后, test
现在具有更少的列 .
那么我怎样才能为 train
添加虚拟列,然后为 test
使用相同的精确列名,即使 test
, test.feature.unique()
中的特定要素是 train.feature.unique()
的子集?我看了pd.get_dummies documentation,但我不会做我正在寻找的事情 . 任何帮助是极大的赞赏!