首页 文章

Pandas:根据另一个数据框中的值在数据框中添加新列

提问于
浏览
1

我有两个数据框,一个是userId,性别和另一个数据框,有这些用户的在线活动 .

第一个数据框 (df1)

userId, gender
001, F
002, M
003, F
004, M
005, M
006, M

第二个数据框 (df2)

userId, itemClicked, ItemBought, date
001, 123182, 123212, 02/02/2016
003, 234256, 123182, 05/02/2016
005, 986834, 234256, 04/19/2016
004, 787663, 787663, 05/12/2016
020, 465738, 465738, 03/20/2016
004, 787223, 787663, 07/12/2016

我想通过查找基于userId的第一个数据框,将性别列添加到第二个数据框 . df2可能每个用户有多行,因为它是一个点击数据,同一用户可能点击了多个项目 .

这在MySql中很容易,但我想在熊猫中做到这一点 .

for index, row in df2.iterrows():
    user_id = row['userId']
    if user_id in df1['userId']:
        t = df1.loc[df1['userId'] == user_id]
        pdb.set_trace()

这是大熊猫这样一个任务的方式吗?

3 回答

  • 1
    print (df1)
       userId gender
    0       1      F
    1       2      M
    2       3      F
    3       4      M
    4       5      M
    5       6      M
    
    print (df2)
       userId  itemClicked  ItemBought        date
    0       1       123182      123212  02/02/2016
    1       3       234256      123182  05/02/2016
    2       5       986834      234256  04/19/2016
    3       4       787663      787663  05/12/2016
    4      20       465738      465738  03/20/2016
    5       4       787223      787663  07/12/2016
    

    你可以使用map

    df2['gender'] = df2.userId.map(df1.set_index('userId')['gender'].to_dict())
    
    print (df2)
       userId  itemClicked  ItemBought        date gender
    0       1       123182      123212  02/02/2016      F
    1       3       234256      123182  05/02/2016      F
    2       5       986834      234256  04/19/2016      M
    3       4       787663      787663  05/12/2016      M
    4      20       465738      465738  03/20/2016    NaN
    5       4       787223      787663  07/12/2016      M
    

    如果只有列 gender 在两个DataFrame中相同,则可以省略merge和左连接,参数 on 的另一个解决方案:

    df = pd.merge(df2, df1, how='left')
    
    print (df)
       userId  itemClicked  ItemBought        date gender
    0       1       123182      123212  02/02/2016      F
    1       3       234256      123182  05/02/2016      F
    2       5       986834      234256  04/19/2016      M
    3       4       787663      787663  05/12/2016      M
    4      20       465738      465738  03/20/2016    NaN
    5       4       787223      787663  07/12/2016      M
    

    Timings

    #len(df2) = 600k
    df2 = pd.concat([df2]*100000).reset_index(drop=True)
    
    def f(df1,df2):
        df2['gender'] = df2.userId.map(df1.set_index('userId')['gender'].to_dict())
        return df2
    
    
    In [43]: %timeit f(df1,df2)
    10 loops, best of 3: 34.2 ms per loop
    
    In [44]: %timeit (pd.merge(df2, df1, how='left'))
    10 loops, best of 3: 102 ms per loop
    
  • 0

    如果user_id是您可以使用的索引:

    df2.join(df1)
    
  • 1

    你可以试试这个:

    for index, row in df1.iterrows():
       for ind,r in df2.iterrows():
          if r['userId']==row['userId']:
             df2.set_value(ind,'Gender',row['gender'])
             break
    

相关问题