我们正在尝试使用Dask来清理一些数据,作为ETL过程的一部分 .
原始文件超过3GB csv .
当我们在一个子集(1GB)上运行代码时,代码运行成功(关于我们的清理过程,例如: user warning

ddf[id1] = ddf[id1].str.extract(´(\d+)´)

repeater  = re.compile(r´((\d)\2{5,}´)
mask_repeater = ddf[id1].str.contrains(repeater, regex=True)
ddf = ddf[~mask_repeater]

在3GB文件上,该过程几乎完成(只剩下一个任务 - drop-duplicatelicates-agg),然后从中间重新启动(这是我从散景状态网站上看到的) . 我们还会看到与脚本开始运行时相同的警告 .

RuntimeWarning: Couldn't detect a suitable IP address for reaching '8.8.8.8', defaulting to '127.0.0.1'...

我在一台24核的脱机单一windows64bit工作站上运行 .

有什么建议?