首页 文章
  • 1 votes
     answers
     views

    Keras模型带着forerver用dask数据帧进行训练

    我正在处理具有低内存的大型数据集,并且我已经介绍了Dask数据帧 . 我从文档中了解到Dask没有将整个数据集加载到内存中 . 相反,它创建了多个线程,这些线程将根据需要从磁盘中获取记录 . 所以我认为keras模型的批量大小= 500,在训练时它应该只有500条记录在内存中 . 但是当我开始训练的时候 . 它需要永远 . 可能我做错了 . 请建议 . 训练数据形状:1000000 * 1290 ...
  • 0 votes
     answers
     views

    dask worker无法导入模块

    我正在运行一个dask集群和一个worker w . 使用CLI实用程序的16个核心 . 一般来说,它看起来效果很好 . 但是,由于某种原因,它不会导入cwd中的模块 . 我尝试从我的笔记本实例运行以下内容: def tstimp(): import os return os.listdir() c.run(tstimp) 我得到以下输出: {'tcp://192.168.1.90:35...
  • -2 votes
     answers
     views

    Dask deployement Python

    对Dask数据帧实现的一点实际操作非常感谢 . 我想将Python的安装主要用作Dask开发环境中的任务 . 我的主要问题是,在单个节点中为机器学习任务最好地部署Dask?你的推荐纯python如(ipython)或jupyter或虚拟环境或virtualwrapper . 我需要joblib . 基于Linux的系统是否优于并行化或性能而非Windows机器?像virtualbox这样的虚拟化系...
  • 0 votes
     answers
     views

    如何使用idxmin()为pandas Series对象返回USABLE索引

    我只是尝试返回一个系列的最小值的索引(它只来自Dask Dataframe的一列),然后使用该索引访问同一Dataframe的不同列中的相应值 . (即相同索引处的值 . )我也在这个过程中做一些中间数学运算 . 我使用以下代码: start_time = Dataframe['time'].sub(c1).pow(2).idxmin() end_time = Dataframe['tim...
  • 0 votes
     answers
     views

    Bag.to_avro失败因为大型数据集上的Killed / MemoryError

    我正在尝试处理大量的文本文件,这些文件由新行分隔 . 文件被gzip压缩,我将文件分成小块,未压缩的文件大约为100mb左右 . 我总共有296个单独的压缩文件,总的未压缩大小约为30Gb . 行是NQuads,我使用 Bag 将行映射为可以导入数据库的格式 . 行按键折叠,以便我可以组合与单个页面相关的行 . 这是我用来读取文件并折叠它们的代码 . with dask.config.set(nu...
  • 0 votes
     answers
     views

    使用scipy.stats来适应xarray DataArray

    我想计算在xarray.DataArray的时间维度上拟合的统计分布的参数 . 我想创建一个类似于以下内容的函数: from scipy import stats import xarray as xr def fit(arr): return xr.apply_ufunc(stats.norm.fit, arr, ...) 返回一个新的DataArray,存储在时间维度上计算的分布的...
  • 4 votes
     answers
     views

    Python Dask - dataframe.map_partitions()返回值

    所以 dask.dataframe.map_partitions() 采用 func 参数和 meta kwarg . 它究竟是如何确定其返回类型的?举个例子: 很多csv在...... \ some_folder中 . ddf = dd.read_csv(r"...\some_folder\*", usecols=['ColA', 'ColB'], ...
  • 1 votes
     answers
     views

    Dask client.map在dask数据帧上返回KeyError

    我正在尝试使用python dask创建一个随机森林分类的更新示例,如最初描述的here . 当我尝试将训练集传递给Client.map函数时,它会抛出一个KeyError,我不确定基于错误消息我做错了什么 . 这就是我所拥有的: from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection imp...
  • 0 votes
     answers
     views

    Python Dask map_partitions

    可能是这个question的延续,使用map_partitions的dask docs示例 . import dask.dataframe as dd df = pd.DataFrame({'x': [1, 2, 3, 4, 5], 'y': [1., 2., 3., 4., 5.]}) ddf = dd.from_pandas(df, npartitions=2) from rando...
  • 1 votes
     answers
     views

    如何将Dask数据帧作为输入传递给dask-ml模型?

    通常的ML管道涉及将pandas或dask数据帧处理成可以传递到ML模型的形式 . 但是,许多dask-ml模型不能接受Dask数据帧,因为它们不跟踪每个分区的行数 . 调用 fit 方法会抛出 Cannot fit on dask.dataframe due to unknown partition lengths error . 我该怎么办才能将Dask数据帧传递给dask-ml模型? 这是...
  • 0 votes
     answers
     views

    将标签编码值分配给dask数据帧中的列时出错

    我在标签编码功能方面遇到错误 . 为了生成我的案例(最初,我已经在dask数据框中导入了一个csv文件,并且在清理后,它留下了28列),我创建了如下的dask数据框: import dask import dask.dataframe as dd from dask_ml.preprocessing import LabelEncoder country = np.random.choice([...
  • 1 votes
     answers
     views

    python或dask并行生成器?

    是否有可能在python中(可能使用dask,可能使用多处理)在核心上“放置”生成器,然后并行地逐步完成生成器并处理结果? 它需要特别是生成器(或具有 __iter__ 的对象);生成器产生的所有生成元素的列表将不适合内存 . 特别是: 使用pandas,我可以调用 read_csv(...iterator=True) ,这给了我一个迭代器(TextFileReader) - 我可以 for in...
  • 1 votes
     answers
     views

    在dask-ml中相当于scikit-learn的GroupShuffleSplit?

    我喜欢以一种没有人在测试和训练数据集中出现观察结果的方式进行分裂 . 要在scikit-learn中进行这种分裂,我会做这样的事情,使用GroupShuffleSplit: import numpy as np from sklearn.model_selection import GroupShuffleSplit X = np.array([0.1, 0.2, 2.2, 2.4, 2.3, ...
  • 0 votes
     answers
     views

    拟合线性回归挂起很长一段时间 - Dask-ML

    我想知道我在这里做错了什么,我找不到任何解释使用Dask ML Build 线性回归的前提条件的文档 . 我有一个名为 Facts 的dask数据帧, def train_model(facts, features_cols, target): """ Train linear regression model from fact table Parameters ...
  • 0 votes
     answers
     views

    来自xarray的大型HDF5数据集上的dask.dataframe.DataFrame.max消耗了大量内存?

    我正在尝试学习使用 DataFrame 的dask,我遇到两个问题: 无法使用 dask.dataframe.read_hdf 直接读取数据集,获取 ValueError:No object to concatenate . 但是可以通过加载相同的HDF5文件 ds = xarray.open_dataset(fn,chunks = 10000) 然后转换为dask的 DataFrame...
  • 5 votes
     answers
     views

    从延迟集合创建大型dask.dataframe时出现Killed / MemoryError

    我试图从一堆大型CSV文件(目前有12个文件,每个8-10万行和50列)创建一个dask.dataframe . 其中一些可能会合并到我的系统内存中,但它们一次肯定不会,因此使用dask而不是常规的pandas . 由于读取每个csv文件涉及一些额外的工作(使用文件路径中的数据添加列),我尝试从延迟对象列表创建dask.dataframe,类似to this example . 这是我的代码: i...
  • 1 votes
     answers
     views

    Dask groupby MemoryError:

    我有一个超过1B记录的Parquet文件 . 我正在尝试使用以下语句运行 groupby : dfg = df[['col1','col2','col3']].groupby(['col1','col2']]).count().compute() 我使用以下配置运行 client .client = distributed.Client(set_as_default=True) 我得到 Me...
  • 1 votes
     answers
     views

    使用xarray,如何在多维数据集上并行化1D操作?

    我有一个4D xarray数据集 . 我想在特定维度(此处为时间)上对两个变量进行线性回归,并将回归参数保存在3D数组中(其余维度) . 我设法通过使用此序列代码获得了我想要的结果,但它相当慢: # add empty arrays to store results of the regression res_shape = tuple(v for k,v in ds[x].sizes.items...
  • 0 votes
     answers
     views

    Dask脚本在localhost环境中的大型csv文件上失败

    我们正在尝试使用Dask来清理一些数据,作为ETL过程的一部分 .原始文件超过3GB csv .当我们在一个子集(1GB)上运行代码时,代码运行成功(关于我们的清理过程,例如: user warning ) ddf[id1] = ddf[id1].str.extract(´(\d+)´) repeater = re.compile(r´((\d)\2{5,}´) mask_repeater =...
  • 0 votes
     answers
     views

    加入对大型数据集的操作

    如何在具有100k行的两个数据帧中应用内部联接操作? . 我有8 GB的计算机RAM并使用Dask但仍然我的计算机被挂起 . 什么是正确的解决方案? import pandas as pd import numpy as np import dask.dataframe as dd import time pool=...
  • 2 votes
     answers
     views

    使用dask加载大型数据集

    我处于HPC环境中,具有群集,紧密耦合的互连以及支持Lustre文件系统 . 我们一直在探索如何利用Dask不仅提供计算,还充当分布式缓存以加速我们的工作流程 . 我们的专有数据格式是n维和常规的,我们编写了一个惰性读者来传递给from_array / from_delayed方法 . 我们在Dask集群中加载和持久存储大于内存的数据集时遇到了一些问题 . hdf5示例: # Dask sched...
  • 1 votes
     answers
     views

    使用dask诊断单机器核外计算的MemoryError

    我正在尝试dask进行单节点核外计算的POC . 我的完整脚本如下 . 我在AWS 2 vCPU上的(Anaconda)Python 3.6.5下运行dask 0.18.1,在Ubuntu v16 - 64bit上运行机器,具有4GB RAM和16GB SSD . RAM的大小是有意的,因为我希望看到中间结果溢出到磁盘并且没有一切都完全在内存中 . 我的输入数据不是那么大(大约300 MB)...
  • 2 votes
     answers
     views

    Dask - 删除重复索引MemoryError

    当我尝试使用以下代码删除大型数据帧上的重复时间戳时,我得到 MemoryError . import dask.dataframe as dd path = f's3://{container_name}/*' ddf = dd.read_parquet(path, storage_options=opts, engine='fastparquet') ddf = ddf.reset_inde...
  • 1 votes
     answers
     views

    计算大型数据集的时间平均值

    我试图获得一个相对较大的数据集的小时的时间平均值 . 你能告诉我如何更快地完成这个过程吗? 下面是xr.dataset“Tair”的维度 <xarray.Dataset> Dimensions: (lat: 2600, lon: 2600, time: 7200) Coordinates: * lon (lon) float64 -64.97 -64.9...
  • 0 votes
     answers
     views

    由工作产生的杀戮任务

    我正在考虑用dask替换芹菜 . 目前,我们有一个集群,其中提交了不同的作业,每个作业生成并行运行的多个任务 . Celery有一个杀手功能,即“撤销”命令:我可以杀死给定作业的所有任务,而不会干扰同时运行的其他作业 . 我怎么能用dask做到这一点?我只找到提及这是不可能的参考文献,但对我们来说这将是一场灾难 . 所以当计算变得流氓时,不要强迫关闭整个集群,从而杀死其他用户的工作 .
  • 2 votes
     answers
     views

    如何从s3读取单个镶木地板文件到dask数据帧?

    我正在尝试从s3读取一个带有snappy压缩的单个镶木地板文件到Dask Dataframe中 . 没有元数据目录,因为此文件是使用Spark 2.1编写的 它不适用于fastparquet本地 import dask.dataframe as dd dd.read_parquet('test.snappy.parquet', engine='fastparquet') 我得到以下例外: Not...
  • 3 votes
     answers
     views

    无法以任何合适的格式保存dask数据帧

    我有一个很大的dask数据帧,并希望将其保存以供以后以任何格式使用,从而允许快速读取访问 . 到目前为止,我尝试过: 通过 .to_hdf 保存 . 这会产生错误: HDF5ExtError: HDF5 error back trace [...] Can't set attribute 'non_index_axes' in node: /x (Group) ''. ,这似乎是由于 Head...
  • 2 votes
     answers
     views

    无法在dask worker中加载模块

    我有以下项目树 . └── src └── dask_test ├── helpers │ ├── commandline.py │ ├── data │ │ ├── dataset0.json │ │ ├── dataset1000.json │ │ ├── d...
  • 1 votes
     answers
     views

    Dask distributed无法使用numpy.arrays和sparse.matrices反序列化

    我在图表上的不同任务上多次收到以下错误(执行之间的更改) . 某些任务可能会返回 numpy.array 和 scipy.sparse 矩阵 . distributed.protocol.pickle - INFO - Failed to deserialize b'\x80\x04' Traceback (most recent call last): File "/home/us...
  • 2 votes
     answers
     views

    `dask-kubernetes`调度程序 - AWS上的worker

    我一直在尝试使用 kubernetes 设置 dask.distributed 群集 . 设置 kube 集群本身非常简单,我目前正在努力解决的问题是我无法让本地调度程序连接到worker . 工作人员可以连接到调度程序,但是他们在 kube 网络内通告了一个地址,该地址是在 kube 网络外部运行的调度程序无法访问的 . 根据 dask-kubernetes docs中的示例,我在AWS上运行...

热门问题