首页 文章

Pandas:DataFrame中重复索引值的平均值

提问于
浏览
0

假设我有以下DataFrame:

df = pd.DataFrame({'a':[0,1,2,3,1,2,3,4],
                   'b':[4,4,2,4,6,7,8,9]},
                   index = ['2010Q1', '2010Q1', '2010Q2', '2010Q2', '2010Q2',
                            '2010Q3', '2010Q3', '2010Q4'])

        a  b
2010Q1  0  4
2010Q1  1  4
2010Q2  2  2
2010Q2  3  4
2010Q2  1  6
2010Q3  2  7
2010Q3  3  8
2010Q4  4  9

请注意,每个索引值都是重复的 . 我想要的是返回另一个在重复索引行上平均的DataFrame,并返回另一个没有重复的DataFrame .

例如

a    b
2010Q1  0.5  4.0
2010Q2  2.0  4.0
2010Q3  2.5  7.5
2010Q4  4.0  9.0

我知道如何 grab 第一个或最后一个重复的行,但我不知道如何平均重复 .

例如

df[df.index.duplicated(keep = 'first')]
df[df.index.duplicated(keep = 'last')]

1 回答

  • 0

    我认为@ user3483203的 groupby 方法是最直接的 . 但另外一个选择是使用pivot_table()

    df.reset_index().pivot_table(columns=["index"]) # add .T to transpose dates to rows
    
    index  2010Q1  2010Q2  2010Q3  2010Q4
    a         0.5     2.0     2.5     4.0
    b         4.0     4.0     7.5     9.0
    

相关问题