如何使用sparkR在不同的集群上进行并行计算？

提问于 2024-04-28T14:02:01+08:00

浏览次

0

我有一个在本地运行的R脚本：每个记录/行都被送入一个名为func的函数来执行一些计算 . 所以流程如下 .

new <- lapply(old, func)

理想情况下，使用sparkR，我希望每个worker都具有函数func并对“old”的子集执行计算 . 在这种情况下，func非常简单，可以在本地计算（不需要此func的分布式版本） .

任何人都知道如何使用SparkR实现这一目标？基本上问题是，如果SparkR中的任何支持像doparallel那样支持多个工作者 .

1 回答

0

正在开发类似于SparkR上的doParallel的并行函数，但在1.6.0中尚未提供

https://issues.apache.org/jira/browse/SPARK-7264

另一种选择可能是在SparkR中使用UDF，这些UDF目前也在开发中，现在还没有 .

https://issues.apache.org/jira/browse/SPARK-6817

回复于 2024-04-28T14:02:01+08:00

相关问题