我正在尝试学习使用 DataFrame 的dask,我遇到两个问题:

  • 无法使用 dask.dataframe.read_hdf 直接读取数据集,获取 ValueError:No object to concatenate . 但是可以通过加载相同的HDF5文件

ds = xarray.open_dataset(fn,chunks = 10000)

然后转换为dask的 DataFrame

dd = ds.to_dask_dataframe()

结果:一个DataFrame npartitions = 10296 Dask Name:concat-indexed,483931任务

  • 无法执行 da.max().compute() ,所有64GB内存几乎立即占用,即使用 da.compute(scheduler='synchronous') .

我问题是否会自动减少所有结果或将多个 max 结果保存在内存中?