首页 文章

如何在Pandas中存储多个相关的时间序列

提问于
浏览
2

我是Pandas的新手,想从专业人士那里获得一些见解 . 我需要对> 30个时间序列的金融证券的每日开盘价,最高价,最低价,收盘价进行各种统计分析(多元回归,相关等) . 每个系列都有500-1500天的数据 . 由于每个分析都关注多个证券,我想知道从易用性和效率角度来看,将每个时间序列存储在一个单独的df中是否更可取,每个时间序列都以日期作为索引,或者将它们全部合并到一个df中单个日期索引,实际上是3d df . 如果是后者,有关如何构建的任何建议吗?

任何想法都非常感激 .

PS . 我正在努力处理跨多个时区的日内数据,但这对我的第一个pandas项目来说有点多了;这是朝这个方向迈出的第一步 .

2 回答

  • 1

    除非您要将所有内容与所有内容相关联,否则我的建议是将其放入单独的数据框中并将它们全部放在字典中,即{“Timeseries1”:df1,“Timeseries 2”:df2 ...} . 然后,当您想要将一些时间序列关联在一起时,您可以合并它们并将后缀放在每个不同df的列中以区分它们 .

    可能你对熊猫自己的作者的这个话题感兴趣.1708959_ .

  • 1

    因为你只处理OHLC,所以要处理的数据并不多,所以这很好 .

    对于这些类型的东西,我通常使用多索引(http://pandas.pydata.org/pandas-docs/stable/indexing.html),其中符号作为第一级,日期作为第二级 . 然后你可以只有OHLC列,你就完成了 .

    要访问multiindex,请使用 .xs 函数 .

相关问题