我有两个数据帧, traintest . 它们都具有完全相同的列名,其中包含分类字符串功能 .

我正在尝试将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集执行相同的精确映射并将训练的模型应用于它 .

我遇到的问题是,由于 test 小于 train ,它碰巧不包含某些分类功能的所有可能值 . 由于 pandas.get_dummies() 似乎只是查看 data.Series.unique() 来创建新列,因此在以 traintest 的相同方式添加虚拟列之后, test 现在具有更少的列 .

那么我怎样才能为 train 添加虚拟列,然后为 test 使用相同的精确列名,即使 testtest.feature.unique() 中的特定要素是 train.feature.unique() 的子集?我看了pd.get_dummies documentation,但我不会做我正在寻找的事情 . 任何帮助是极大的赞赏!