首页 文章

如何使用sparkR在不同的集群上进行并行计算?

提问于
浏览
0

我有一个在本地运行的R脚本:每个记录/行都被送入一个名为func的函数来执行一些计算 . 所以流程如下 .

new <- lapply(old, func)

理想情况下,使用sparkR,我希望每个worker都具有函数func并对“old”的子集执行计算 . 在这种情况下,func非常简单,可以在本地计算(不需要此func的分布式版本) .

任何人都知道如何使用SparkR实现这一目标?基本上问题是,如果SparkR中的任何支持像doparallel那样支持多个工作者 .

1 回答

相关问题