-
0 votesanswersviews
熊猫堆积条形图问题
我有一个Dataframe dft ,其中包含两列 'DATE' 和 'INVOICE' ,如下所示,但跨越多年的行数要多得多 . DATE INVOICE 0 2015-01-29 68.61 1 2015-01-15 16.54 2 2015-01-15 4.72 3 2015-01-14 109.71 我首先按 INVOICE ... -
3 votesanswersviews
熊猫:按满足条件的列分组
我有一个包含三个列的数据集:评级,品种和狗 . import pandas as pd dogs = {'breed': ['Chihuahua', 'Chihuahua', 'Dalmatian', 'Sphynx'], 'dog': [True, True, True, False], 'rating': [8.0, 9.0, 10.0, 7.0]} df =... -
2 votesanswersviews
按日期时间间隔计算记录数
我将一些数据加载到 Pandas DataFrame 中,我想将其聚合到日期时间间隔中,并计算每个时间间隔内的记录数 . 问题是我发现聚合到日期时间间隔并计算每个间隔内的记录数的方法看起来相当笨重,可能不是最有效的 . 更改我想要分组的间隔以计算推文的数量也是一种痛苦 . data = [[Timestamp('2016-10-26 18:47:53'), 'mention'], ... -
1 votesanswersviews
按分类变量分组的箱图
将pandas用于大型数据集,我已经将其缩减为我需要的信息 . 基本上我想根据他们的帖子中使用的主题标签的数量来绘制来自两个不同国家的用户的朋友数量的分布,作为并排的箱图(我称之为分组的箱图) . 6,我将此视为一个分类变量) . 这导致在同一帧中总共2 * 6 = 12个箱图,以便于比较 . 我做了一些研究,我知道df.boxplot(by ='x'),但这并不能说明比较这两个国家的额外水平 ... -
0 votesanswersviews
如何使用数据透视表python选择前5个类别
我有一个数据框如下: df = pd.DataFrame({"Salary_Range": ['0-4999', '0-4999', '0-4999', '5000-7999', '5000-7999', '8000-14999', '8000-14999'], "Nationality_desc": ['India', 'India', 'Ph... -
0 votesanswersviews
大熊猫 - 分类变量的百分比计数
我有一只大熊猫喜欢 df_test = pd.DataFrame({'A': 'a a a b b'.split(), 'B': ['Y','N','Y','Y','N']}) 我想要的输出是 df_test2 = pd.DataFrame({'A': 'a b'.split(), 'B': [2/3,1/2]}) 你如何做一个groupby() . 按A列应用以获得B列中'Y'的百分比? 我一直... -
0 votesanswersviews
pandas:group by ffill不适用填写正确的顺序
我通过ffill面对小组的问题 . 它似乎没有以正确的顺序应用前向填充这是我的起始数据 group date stage_2 0 A 2014-01-01 NaN 1 A 2014-01-03 NaN 2 A 2014-01-04 NaN 3 A 2014-01-05 1.0 4 B 2014-... -
0 votesanswersviews
如何访问pandas groupby值?
我想访问groupby的值 . 我想比较它们 . 以下是我创建groupby数据帧的方法: SideStepped_by_ObstDist_by_Sex = daten_csv.groupby(['ObstacleInterspace', 'Sex', 'Sidestepped']).agg({'Sidestepped': 'count'}) SSbObS = SideStepped_by_Obs... -
1 votesanswersviews
将DataFrame拆分为块
我有一个DataFrame,其中包含名称,年份,标签和一堆其他变量 . 所以它可能看起来像这样 df = pd.DataFrame({ "name": 4*["A"] + 5*["B"], "year": [1999,2000,2001,2002,2010,2011,2012,2013,2014], ... -
180 votesanswersviews
如何透视数据框
什么是枢轴? 如何转动? 这是一个支点吗? 长格式到宽格式? 我已经看到很多关于数据透视表的问题 . 即使他们不知道他们询问数据透视表,他们通常也是如此 . 写一个规范的问题和答案几乎是不可能的,它包含了旋转的所有方面...... ......但是我要试一试 . 现有问题和答案的问题在于,问题通常集中在OP难以概括以便使用一些现有的良好答案的细微差别 . 但是,没有一个答案试... -
0 votesanswersviews
Pandas ffill重新采样按列分组的数据
我正在尝试从开始日期和结束日期创建一个数据框,用于多个asset_id,并将其转换为开始日期和结束日期之间每个asset_id的半小时列表,其中some_property的值已填充 . 我已经尝试过分组并从SO的文档和示例中重新取样,但我很难理解如何完成这项工作 . 考虑示例: some_time = datetime(2018,4,2,20,20,42) start_date = datetim... -
17 votesanswersviews
pandas agg和apply函数有什么区别?
我无法弄清楚Pandas .aggregate 和 .apply 函数之间的区别 .以下面的例子为例:我加载数据集,执行 groupby ,定义一个简单的函数,以及用户 .agg 或 .apply . 正如您所看到的,使用 .agg 和 .apply 之后,我的函数中的打印语句会产生相同的输出 . 结果,另一方面是不同的 . 这是为什么? import pandas import pandas... -
1 votesanswersviews
将列添加到groupby数据帧
如何通过数据框向熊猫组添加“总和”列?我想对下面的groupby数据框的'看跌'和'看涨'内部栏目做一个'总和' . 然后我想添加另外两列: %看跌=看跌/总和* 100 %看涨=看涨/总和* 100 group_df = df[['sentiment','message']].groupby([pd.TimeGrouper(freq='H'),'sentiment']).count() grou... -
0 votesanswersviews
将新列附加到groupby对象中的pandas数据帧
我想将列添加到groupby对象中的pandas数据帧 # create the dataframe idx = ['a','b','c'] * 10 df = pd.DataFrame({ 'f1' : np.random.randn(30), 'f2' : np.random.randn(30), ... -
2 votesanswersviews
如何用pandas中的groupby计算绝对和?
如何用pandas中的groupby计算绝对和? 例如,给定DataFrame: Player Score 0 A 100 1 B -150 2 A -110 3 B 180 4 B 125 我希望玩家A的总得分(100 110 = 210)以及玩家A的总得分(150 180 125 = 455),忽略得分的符号 . ... -
1 votesanswersviews
Pandas GroupBy Date Chunks
我正在尝试将Pandas Dataframe分组为2天的桶 . 例如,如果我执行以下操作: df = pd.DataFrame() df['action_date'] = ['2017-01-01', '2017-01-01', '2017-01-03', '2017-01-04', '2017-01-04', '2017-01-05', '2017-01-06'] df['action_date... -
1 votesanswersviews
用groupby按条件求和pandas列
我有大数据框,我需要在'view_day'列中为'for'时段加上'view'列 . 数据框看起来像: size = 400 dtype = [('view_day', 'int32'), ('account', 'int32'), ('view', 'int32')] values = np.ones(size, dtype=dtype) dfo = pd.DataFrame(values) ... -
2 votesanswersviews
Python Pandas - 在多列上融化,旋转,转置
我有一个如下所示的数据框 . 指数为年(1964年至2016年,非独特,每年重复31次),第1列为天(1至31),第2列至第13列为月(1至12) 问题是:如何使用pd.DatetimeIndex日期将其转换为Pandas系列(或单列df)?我尝试过使用groupby,melt,pivot和transpose,但我无法弄清楚正确的语法 . 非常感谢你的帮助! -
1 votesanswersviews
Pandas简单关联两个分组的DataFrame列
有没有一种很好的方法来获得两个分组的DataFrame列的简单关联? 似乎无论什么熊猫 .corr() 函数想要返回相关矩阵 . 例如 . , i = pd.MultiIndex.from_product([['A','B','C'], np.arange(1, 11, 1)], names=['Name','Num']) test = pd.DataFrame(np.random.randn(3... -
2 votesanswersviews
按数据帧分组的值只有不到一秒的时间 - 熊猫
假设我有一个pandas数据帧,如下所示: >>> df=pd.DataFrame({'dt':pd.to_datetime(['2018-12-10 16:35:34.246','2018-12-10 16:36:34.243','2018-12-10 16:38:34.216','2018-12-10 16:42:34.123']),'value':[1,2,3,4]}) &... -
2 votesanswersviews
当我们使用自定义函数对groupby的结果应用时,不会传递所有列
创建一个DataFrame, x_df = pd.DataFrame({'a': [1,2,3,4,5,6], 'b': [1,2,1,2,1,2], 'c': ['x','x','y','y','z','z']}) Out[56]: a b c 0 1 1 x 1 2 2 x 2 3 1 y 3 4 2 y 4 5... -
1 votesanswersviews
Python PANDAS:使用Groupby重新采样多变量时间序列
我有以下一般格式的数据,我想重新采样到30天的时间序列窗口: 'customer_id','transaction_dt','product','price','units' 1,2004-01-02,thing1,25,47 1,2004-01-17,thing2,150,8 2,2004-01-29,thing2,150,25 3,2017-07-15,thing3,55,17 3,2016-... -
3 votesanswersviews
将分组的聚合nunique列添加到pandas数据帧
我想在我的pandas数据帧中添加一个聚合的,分组的,nunique列,但不会聚合整个数据帧 . 我试图在一行中执行此操作,并避免创建新的聚合对象并合并它等 . 我的df有track,type和id . 我希望每个轨道/类型组合的唯一ID数量作为表格中的新列(但不会在生成的df中折叠轨道/类型组合) . 行数相同,列数增加1 . 这样的事情不起作用: df['n_unique_id'] = df.... -
1 votesanswersviews
聚合数据框中的所有列
我有一个包含超过50列和几百万行的数据帧 . 我想根据其中一列进行分组,并为所有剩余列生成平均值和最大值 . 为了使其更容易理解,我正在粘贴该数据帧的一小段内容: {'SystemID': {0: '95EE8B57', 1: '95EE8B57', 2: '5F891F03', 3: '5F891F03'}, 'Day': {0: '06/08/2018', 1: '05/08/2018', 2... -
1 votesanswersviews
将小计添加到Pandas Groupby
我正在寻找一种更简洁的方法来为Pandas groupby添加小计 . 这是我的DataFrame: df = pd.DataFrame({ 'Category':np.random.choice( ['Group A','Group B'], 50), 'Sub-Category':np.random.choice( ['X','Y'], 50), 'Product':np.random.cho... -
1 votesanswersviews
pandas和groupby:如何计算agg中的加权平均值
我使用groupby和agg计算了一些聚合函数,因为我需要不同的聚合函数用于不同的变量,例如不是所有的总和,而是x的平均值和平均值,y的平均值等 . 有没有办法用agg计算加权平均值?我找到了很多例子,但没有一个有例子 . 我可以手动计算加权平均值,如下面的代码所示(注意带有**的行),但我想知道是否有更优雅和直接的方式? 我可以创建自己的功能并使用agg吗? 为清楚起见, I fully und... -
2 votesanswersviews
将List作为索引传递给pandas系列
我可以将列表作为索引传递给pandas系列吗? 我有以下数据帧: d = {'no': ['1','2','3','4','5','6','7','8','9'], 'buyer_code': ['Buy1', 'Buy2', 'Buy3', 'Buy1', 'Buy2', 'Buy2', 'Buy2', 'Buy1', 'Buy3'], 'dollar_amount': ['200.25', '... -
1 votesanswersviews
如何在Pandas中进行分组,在所有组中都有参数的函数并返回参数
我正在积累Pandas的经验并且遇到了这个挑战:我有一个源数据框,比如df_source,列有'A','B','C' . 我想按'A'和'B'进行分组,每组根据'C'的所有值进行计算 . 结果应该是一个新的附加列'D' . def myfunc(df, par): {some complex calculation based on all values of df['C']} r... -
0 votesanswersviews
在python中动态重命名列名
我有一个数据帧,它会自动生成多个列,如result1,result2,result3,result4等 . 我想重命名最后一个结果,在这种情况下是result4 . 列数每次都是新的,所以我不能使用命令 df.rename(columns={'result4': 'Final_result'}, inplace=True) 我该怎么做?什么命令将有利于实现这一目标? -
1 votesanswersviews
Pandas中groupby方法的'level'参数如何工作?
(df.set_index('STNAME').groupby(level=0)['CENSUS2010POP'] .agg({'avg': np.average, 'sum': np.sum})) 在上面的代码中,为什么有必要在groupby中指定level参数,因为根据我的理解,只有在DataFrame中有multiIndex时才需要level参数 .