首页 文章

使用h5py对hdf5进行增量写入

提问于
浏览
16

我有一个关于如何使用python / h5py最好地写入hdf5文件的问题 .

我有以下数据:

-----------------------------------------
| timepoint | voltage1 | voltage2 | ...
-----------------------------------------
| 178       | 10       | 12       | ...
-----------------------------------------
| 179       | 12       | 11       | ...
-----------------------------------------
| 185       | 9        | 12       | ...
-----------------------------------------
| 187       | 15       | 12       | ...
                    ...

大约10 ^ 4列,大约10 ^ 7行 . (大约10 ^ 11(1000亿)个元素,或者~100GB,1个字节的整数) .

使用这些数据,典型的使用几乎是一次写入,多次读取,典型的读取案例是获取第1列和另一列(比如254),将两列加载到内存中,并做一些奇特的统计 .

我认为一个好的hdf5结构将使上表中的每列都是hdf5组,从而产生10 ^ 4组 . 这样我们就不需要将所有数据都读入内存了,是吗? hdf5结构虽然尚未定义,但它可以是任何东西 .

现在的问题是:我一次收到~10 ^ 4行的数据(并且每次都没有完全相同的行数),需要将其逐步写入hdf5文件 . 我该怎么写这个文件?

我正在考虑python和h5py,但如果推荐的话可以使用其他工具 . 正在进行分块的方式,例如

dset = f.create_dataset("voltage284", (100000,), maxshape=(None,), dtype='i8', chunks=(10000,))

然后当另一个10 ^ 4行的块到达时,替换数据集?

或者将每个10 ^ 4行的块存储为单独的数据集更好?或者我真的需要知道最后的行数吗? (这很难获得,但也许可能) .

我可以保释hdf5,如果它也不是适合这项工作的工具,不过我认为一旦尴尬的写作完成,它就会很精彩 .

2 回答

  • 20

    Per the FAQ,您可以使用 dset.resize 扩展数据集 . 例如,

    import os
    import h5py
    import numpy as np
    path = '/tmp/out.h5'
    os.remove(path)
    with h5py.File(path, "a") as f:
        dset = f.create_dataset('voltage284', (10**5,), maxshape=(None,),
                                dtype='i8', chunks=(10**4,))
        dset[:] = np.random.random(dset.shape)        
        print(dset.shape)
        # (100000,)
    
        for i in range(3):
            dset.resize(dset.shape[0]+10**4, axis=0)   
            dset[-10**4:] = np.random.random(10**4)
            print(dset.shape)
            # (110000,)
            # (120000,)
            # (130000,)
    
  • 6

    正如@unutbu指出的那样, dset.resize 是一个很好的选择 . 在查看 pandas 及其HDF5支持时可能会有效,这可能对您的工作流程有用 . 听起来HDF5是一个合理的选择,但您可能会使用顶部的附加层更好地表达您的问题 .

    需要考虑的一件大事是数据的方向 . 如果您主要对读取感兴趣,并且主要是按列提取数据,那么听起来您可能想要转置数据,以便在HDF5以行主顺序存储时按行发生读取 .

相关问题