我正在尝试学习使用 DataFrame
的dask,我遇到两个问题:
- 无法使用
dask.dataframe.read_hdf
直接读取数据集,获取ValueError:No object to concatenate
. 但是可以通过加载相同的HDF5文件
ds = xarray.open_dataset(fn,chunks = 10000)
然后转换为dask的 DataFrame
dd = ds.to_dask_dataframe()
结果:一个DataFrame npartitions = 10296 Dask Name:concat-indexed,483931任务
- 无法执行
da.max().compute()
,所有64GB内存几乎立即占用,即使用da.compute(scheduler='synchronous')
.
我问题是否会自动减少所有结果或将多个 max
结果保存在内存中?