首页 文章
  • 3 votes
     answers
     views

    熊猫时间序列重新取样,binning似乎关闭了

    我在这里回答了另一个问题,关于我想知道的大熊猫,时间序列重新采样,当我注意到这个奇怪的分档时 . 假设我有一个带有每日日期范围索引的数据框和一个我要重新取样和总和的列 . index = pd.date_range(start="1/1/2018", end="31/12/2018") df = pd.DataFrame(np.random.randint...
  • 1 votes
     answers
     views

    在MATLAB中插补指定的轴

    我有一个n维矩阵, funtointerpolate ,我希望沿其中一个轴执行一维插值(让我们称之为轴 m ) . 在Python中,插值函数(如 interp1d )允许指定插值轴 . 在MATLAB中,我看不到使用 interp1 或任何其他内置插值函数的明显方法 . 理想情况下,该功能看起来像 interpolatedfun = interp1(funtointerpolate,oldpoi...
  • 8 votes
     answers
     views

    使用另一个时间序列的索引重新采样时间序列

    我有2个数据帧具有相同的列但不同的日期时间索引 . 我想重新对其中一个进行重新采样,以使用另一个的索引,并在另一个没有数据的索引中的任何日期使用前一个填充数据 . import pandas as pd import numpy as np from datetime import datetime as dt a_values = np.random.randn(4, 4) a_index =...
  • 1 votes
     answers
     views

    熊猫以相等的部分重新采样时间系列

    我试图在 N 等份中重新取样一只大熊猫时间系列 . 我的时间系列大小 10 : rng = pd.date_range('20130101',periods=10,freq='T') ts=pd.Series(np.random.randn(len(rng)), index=rng) print(ts) 2013-01-01 00:00:00 -1.346024 2013-01-01 00:...
  • 1 votes
     answers
     views

    Python PANDAS:使用Groupby重新采样多变量时间序列

    我有以下一般格式的数据,我想重新采样到30天的时间序列窗口: 'customer_id','transaction_dt','product','price','units' 1,2004-01-02,thing1,25,47 1,2004-01-17,thing2,150,8 2,2004-01-29,thing2,150,25 3,2017-07-15,thing3,55,17 3,2016-...
  • 2 votes
     answers
     views

    为什么pandas时间序列重新采样会引发IncompatibleFrequency错误?

    问题 从2006年开始,我有一个带有time series数据的pandas DataFrame五年,我添加 PeriodIndex ,它自动转换自 Period ,由pd.period_range()制作,如下面的代码块所示 . 在那里,我想要resample()前四年,我已经使用了docs中提到的time series offset aliases . 当我使用 freq=1W 时它可以工作,...
  • 1 votes
     answers
     views

    Pandas重新采样时间序列向后计数(或反向重采样)

    我想重新采样大熊猫时间序列倒计时 . 例如,让我们设置一个简单的11天时间序列: >>> index = pd.date_range('01-01-2018', '01-11-2018', freq='D') >>> randint = np.random.randint(low=0, high=9, size=(len(index), 1)) >&gt...
  • 0 votes
     answers
     views

    Python pandas resample需要太多内存

    我有一系列坚实的基本数据,如市场 Value ,按日期索引的收盘价,以及每周频率的cusip . 我想重新采样它以获得每月频率的数据,但问题是我的代码需要太多内存和太多时间来处理非常少量的数据 . 这是我的代码: def getMonthlyData(start=(datetime.now()-relativedelta(years=5)),end=datetime.now()): _da...
  • 1 votes
     answers
     views

    在R中应用函数或循环:不是数字,返回NA

    我正在使用R中的重采样过程(就像引导程序一样) . 我有一个响应/解释变量矩阵,并希望制作该矩阵的999个样本来计算我正在处理它们的平均值,sd和置信区间的每个统计量 . 所以,我写了一个函数来计算并返回一个列表: mydata <- data.frame(a=rnorm(20, 1, 1), b = rnorm(20,1,1)) myfun <- function(data, n)...
  • -1 votes
     answers
     views

    相关系数的Bootstrap p值(重采样方法)

    我有这个大的数据集(N = 300.000)并且通过功率分析我得出的结论是,如果它存在,我只需要250个观察来找到相关性 . 因此,我想使用自举来挑选1000个大小为n = 250的样本,以找到这1000个样本中的p值范围 . 我对bootstrap方法很不熟悉,但是在这里我给出了一个关于我在启动包中有多远的例子 . 我用Iris数据集来说明 . 我想要的输出是直方图,显示1000个获得的p值的频...
  • 2 votes
     answers
     views

    麻烦重新取样Pandas中的数据

    我正在尝试用Pandas重新采样天气数据 . 原始数据大约为5分钟 . 最后,我想导出单独的excel文件,并以5分钟,15分钟和1小时的间隔重新采样数据 . 我已成功将“时间”列设置为日期时间索引,但是当我尝试重新采样时,我不断收到“DataError:没有要聚合的数字类型” 我也尝试使用converters = {'TemperatureF':int ...等导入原始的excel文件 #Ope...
  • 1 votes
     answers
     views

    重新采样pandas数据帧时的NaN值

    我有一个包含两个不同列的pandas数据框: 日期时间索引列; 包含dict的列 如果我运行一个自定义重新采样器,返回一个新的dict作为结果,我在重采样数据帧中得到一个NaN值 . 是否不可能运行不返回数字的重新采样? 谢谢,FB EDIT1: 这是一个数据样本: 2017-10-15 06:55:14.237039000,"{'SMA120C': {'status': 9...
  • 2 votes
     answers
     views

    如何向后重采样pandas数据帧

    嗨,我正在尝试向后重新采样pandas DataFrame . 这是我的数据帧: seconds = np.arange(20, 700, 60) timedeltas = pd.to_timedelta(seconds, unit='s') vals = np.array([randint(-10,10) for a in range(len(seconds))]) df...
  • 4 votes
     answers
     views

    圆形熊猫日期时间指数?

    我正在将多个时间序列表读入pandas dataFrame,并将它们与常见的pandas datetime索引连接在一起 . 记录时间序列的数据 Logger 不是100%准确,这使得重新采样非常烦人,因为根据时间是略高于还是低于采样间隔,它将创建NaN并开始使我的系列看起来像一条虚线 . 这是我的代码 def loaddata(filepaths): t1 = time.clock() ...
  • 3 votes
     answers
     views

    熊猫将每小时的时间序列重新采样为每小时比例的时间序列

    我正在处理每小时的时间序列(日期,时间(小时),P),并尝试计算每小时每日总数“金额”的比例 . 我知道我可以让我们Pandas的重新采样('D',怎么='sum')来计算P(DailyP)的每日总和,但在同一步骤中,我想用每日P来计算每日P的比例每小时(因此,P / DailyP)以小时时间序列结束(即,与原始时间序列相同) . 我不确定这在Pandas术语中是否甚至可以被称为“重新采样” . ...
  • 1 votes
     answers
     views

    如何以保守的方式重拍熊猫?

    我正在尝试使用pandas dataframe / series来存储测量值 . 这些用作热力学模拟的输入 . 因此,当重新采样热量(/能量)和温度值时,应保持不变 . import pandas as pd import numpy as np start_date = '2015-01-01 ' my_timing = '60T' my_ts_index = pd.date_range(st...
  • 2 votes
     answers
     views

    用pandas重新采样python列表

    这里对蟒蛇和大熊猫来说相当新 . 我做了一个查询,它给了我一个时间序列 . 我不知道从查询中收到多少数据点(运行一天),但我知道的是我需要重新采样它们以包含24个点(当天每小时一个) . 打印m3hstream给出 [(1479218009000L, 109), (1479287368000L, 84)] 然后我尝试用数据帧df df = pd.DataFrame(data = list(m3h...
  • 0 votes
     answers
     views

    熊猫:重新采样不规则的DateTime索引/ PeriodIndex

    尝试使用Panda的.resample()函数从不规则的观察中进行上采样(例如,从大约7秒到小时样本,使用最后一次观察) . 我一直收到此错误消息: AttributeError: type object 'Grouper' has no attribute '_attributes' 即使使用先前提出的问题的语法(Pandas resample和其他人) . Pandas一般可以使用不规则的...
  • 2 votes
     answers
     views

    使用'Duplicate Index'重新取样或asfreq pandas python中的时间序列dataFrame错误

    我有一个pandas数据帧,我有日期时间(不在索引中,并且首选) . 我想将其重新采样(重新采样)到指定的时间尺度,例如“10S” . 并将字符串数据(即列Acitivty / Action / EPIC等)保存在dataFrame中 . Ind TIME_STAMP Activity Action Quantity EPIC Price Sub-acti...
  • 2 votes
     answers
     views

    Scikit-Learn随机森林分类器:培训和测试的准确性高,但不是 生产环境

    我正在训练一个分类器来预测哪个将基于文本的请求分类到部门 . 我有~107,000个由22个不 balancer 类组成的标记示例,大致有以下分布: 1级:10,000 2级:60,000 3级:7,000 4级:5,000 5级:3,500 第6和7类:每个样本2000个 类别7-15:每个1500个样本 每个类别16-22:500个样本 我一直在预处理数据,...
  • 2 votes
     answers
     views

    用非整数因子重新组合numpy数组

    我有一个模型光谱网格,它具有恒定的,非常高的光谱分辨率,我需要将它们下采样到较低的分辨率,同时保留计数的总数 . 本质上,如果前5个箱子有(标称箱中心)波长 [7.8, 7.81, 7.82, 7.83, 7.84] ,并且值 [1.01, 1.02, 1.015, 1.014, 1.02] ,我想要的箱子是某个(非整数)因子(比如2.5倍)宽,我想要我的新频谱具有标称波长 [7.81, 7.83...
  • 0 votes
     answers
     views

    时间标准化R中的跳跃力变量

    我有一个数据集,其中包含一名运动员提供的两次垂直跳跃的垂直地面反作用力 . 这是一个连续变量 . 我还有一个专栏给出了运动员的位移,这也是一个连续的变量 . 对于两次跳跃,数据以500Hz采样,但跳跃#1比跳转#2花费更多时间执行,因此它具有更多行数 . 我想将每次跳跃的位移标准化,从总位移的0到100%的比例,以使两个跳跃的力变量相等 . 然后我想计算跳跃中平均力与位移曲线的平均值 . 由于数据...
  • 1 votes
     answers
     views

    熊猫重新采样bug?

    尝试将每周8个时间点的样本降低到2个点,每个时间点代表4周的平均值,我使用resample() . 我开始使用(60 * 60 * 24 * 7 * 4)秒定义规则,看到我最终得到3个时间点,最新的一个是假的 . 开始检查它,我注意到如果我将规则定义为4W或28D它没关系,但是下降到672H或更小的单位(分钟,秒,......),会出现额外的伪造列 . 这个测试代码: import numpy a...
  • 2 votes
     answers
     views

    Pandas用重新采样推断数据

    我有 pandas.DataFrame 如下 53.0 79.3 %Y-%m-%d %H:%M:%S 2013-05-16 16:01:30 NaN NaN 2013-05-16 16:02:00 NaN NaN 2013-05-16 16:03:30 NaN ...
  • 2 votes
     answers
     views

    ALSA - 样本转换

    我有一个文本到语音应用程序,它生成一个22kHz采样率的音频流(原始数据) . 我有一个仅支持44kHz的USB-SoundCard . 使用我的asound.conf,我可以播放包含22kHz和44kHz音频流的wav文件而不会出现问题 . 我的应用程序使用alsa-libs并设置设备的采样率 . 在这种情况下,只有44kHz会成功,因为硬件仅支持此采样率 . 但现在,当我将生成的音频流写入al...
  • 1 votes
     answers
     views

    如何实现Matlab的“速率转换”(在C#中)

    我有一个以10 000 Hz的速率采样的信号,我需要将其重新采样到4 000 Hz . 在MATLAB中,我使用带有三个简单块的simulink模型:“From Workspace”,指定采样时间(0.0001 s) - >“Rate Transition”,指定输出采样时间0.00025 s - >“To Workspace”保存输出数据 . (一个速率转换块我看到“No Op”...

热门问题