-
0 votes0 answers18 views
dask worker无法导入模块
我正在运行一个dask集群和一个worker w . 使用CLI实用程序的16个核心 . 一般来说,它看起来效果很好 . 但是,由于某种原因,它不会导入cwd中的模块 . 我尝试从我的笔记本实例运行以下内容: def tstimp()... -
-2 votes0 answers1576 views
Dask deployement Python
对Dask数据帧实现的一点实际操作非常感谢 . 我想将Python的安装主要用作Dask开发环境中的任务 . 我的主要问题是,在单个节点中为机器学习任务最好地部署Dask?你的推荐纯python如(ipython)或jupyter或虚... -
0 votes1 answers1546 views
Bag.to_avro失败因为大型数据集上的Killed / MemoryError
我正在尝试处理大量的文本文件,这些文件由新行分隔 . 文件被gzip压缩,我将文件分成小块,未压缩的文件大约为100mb左右 . 我总共有296个单独的压缩文件,总的未压缩大小约为30Gb . 行是NQuads,我使用 Bag 将行映... -
0 votes1 answers1280 views
使用scipy.stats来适应xarray DataArray
我想计算在xarray.DataArray的时间维度上拟合的统计分布的参数 . 我想创建一个类似于以下内容的函数: from scipy import stats import xarray as xr def fit(arr): ... -
2 votes1 answers380 views
无法在dask worker中加载模块
我有以下项目树 . └── src └── dask_test ├── helpers │ ├── commandline.py │ ├── data │... -
1 votes0 answers204 views
Dask distributed无法使用numpy.arrays和sparse.matrices反序列化
我在图表上的不同任务上多次收到以下错误(执行之间的更改) . 某些任务可能会返回 numpy.array 和 scipy.sparse 矩阵 . distributed.protocol.pickle - INFO - Failed ... -
2 votes1 answers1410 views
`dask-kubernetes`调度程序 - AWS上的worker
我一直在尝试使用 kubernetes 设置 dask.distributed 群集 . 设置 kube 集群本身非常简单,我目前正在努力解决的问题是我无法让本地调度程序连接到worker . 工作人员可以连接到调度程序,但是他们在 ... -
1 votes1 answers614 views
distributed.utils - 错误 - 模块'pyarrow'没有属性'hdfs'
我正在尝试使用to_parquet api中的pyarrow引擎将dask数据帧写入hdfs镶木地板 . 但是写入失败,但有以下异常: dask_df.to_parquet(parquet_path,engine=engine) ... -
0 votes0 answers93 views
如何在groupby列之外的不同列上对dask groupby数据帧进行排序
在dask数据帧中,可以按groupby键不同的列对分组(由groupby api获取)数据帧进行排序 . def func1(grouped_df): grouped_df=grouped_df.sort_values(by... -
3 votes0 answers332 views
读取/检索大型数据集时的Dask调度程序行为
这是this question的后续行动 . 我在分布式内存中持久保存大型数据集时遇到了问题 . 我有一台运行在一台机器上的调度程序和8台工作人员,每台工作人员在自己的机器上运行,由40千兆位以太网和一个支持Lustre文件系统连接 ...