首页 文章

存储R生成的大结果的理想格式是什么?

提问于
浏览
3

我通过大量参数组合(20-40k)模拟合理大小的数据集(10-20mb) . 每个数据集x参数集被推送到 mclapply ,结果是 list ,其中每个项目包含输出数据(作为列表项1)和用于生成该结果的参数作为列表项2(其中该列表的每个元素是参数) .

我刚刚浏览了一个81K列表(但必须以30k块运行它们),结果列表大约为700 MB . 我将它们存储为 .rdata 文件,但可能会将它们重新保存为 .Rda . 但是每个文件都需要永远被读入 R . 这里有最好的做法,特别是长期存放吗?

理想情况下,我会将所有内容保存在一个列表中,但 mclapply 会抛出一个错误,指出无法序列化向量,并且这个大型工作将永远占用集群(分为3种方式,需要3小时/作业) . 但是有几个结果文件 results1a.rdataresults2b.rdataresults3c.rdata 似乎也效率低下 .

1 回答

  • 4

    听起来你有几个不同的问题 - 我建议在一个单独的问题中询问如何优化列表格式 .

    然而,关于将R数据读/写到磁盘,在效率方面,我比Rda文件更好 . 但是,我发现压缩级别可以对读取/写入这些文件所需的时间量产生实际影响,具体取决于计算设置 . 我通常发现你在没有压缩的情况下获得了最佳性能( save(x,file="y.Rda", compress=FALSE) ) .

    作为备份计划,您可以尝试保持压缩,但也可以改变压缩级别 .

相关问题