调用函数时，Pandas，大数据，HDF表和内存使用情况-Java 学习之路

简短的问题

当Pandas在HDFStore上工作时（例如：.mean（）或.apply（）），它是否将内存中的完整数据作为DataFrame加载，还是作为Serie逐个记录处理？

我必须处理大数据文件，我可以指定数据文件的输出格式 .

我打算使用Pandas处理数据，我想设置最佳格式，以便最大化性能 .

我已经看到panda.read_table（）已经走了很长一段路，但它仍然至少需要与我们想要读取的原始文件大小一样多的内存（实际上至少是内存的两倍）才能转换为DataFrame . 这可能适用于高达1 GB但高于1 GB的文件？这可能很难，特别是在在线共享机器上 .

但是，我已经看到现在Pandas似乎支持使用pytables的HDF表 .

我的问题是：当我们在整个HDF表上进行操作时，Pandas如何管理内存？例如.mean（）或.apply（） . 它是首先在DataFrame中加载整个表，还是直接从HDF文件处理数据而不存储在内存中？

问题：硬盘使用的hdf5格式是否紧凑？我的意思是，它像xml一样冗长或更像JSON吗？（我知道有索引和东西，但我在这里对数据的简单描述感兴趣）