我有一个巨大的df看起来像这样 -
... || City || Country
Newyork USA
Newyork USA
Newyork USA
Newyork **unknown**
delhi india
delhi **unknown**
delhi india
现在,我想根据已经匹配的城市填写正确国家的未知数 . 例如,大多数具有newyork的行在country列中都是USA .
我的想法是按国家分组并将其转换成字典来映射,但那种失败 .
这是一个类比问题,但解决方案是在R:基于发生概率填充缺失值
2 回答
您可以将value_counts与第一个索引或第一个值mode一起使用
replace
:另一个解决方案是将
**unknown**
替换为缺失值,获取最高值和fillna:一个简单的解决方案,使用
collections.Counter
根据groupby('City')
为'**unknown**'
字段查找最常见的Country
.