我有一个在本地运行的R脚本:每个记录/行都被送入一个名为func的函数来执行一些计算 . 所以流程如下 .
new <- lapply(old, func)
理想情况下,使用sparkR,我希望每个worker都具有函数func并对“old”的子集执行计算 . 在这种情况下,func非常简单,可以在本地计算(不需要此func的分布式版本) .
任何人都知道如何使用SparkR实现这一目标?基本上问题是,如果SparkR中的任何支持像doparallel那样支持多个工作者 .
正在开发类似于SparkR上的doParallel的并行函数,但在1.6.0中尚未提供
https://issues.apache.org/jira/browse/SPARK-7264
另一种选择可能是在SparkR中使用UDF,这些UDF目前也在开发中,现在还没有 .
https://issues.apache.org/jira/browse/SPARK-6817
1 回答
正在开发类似于SparkR上的doParallel的并行函数,但在1.6.0中尚未提供
https://issues.apache.org/jira/browse/SPARK-7264
另一种选择可能是在SparkR中使用UDF,这些UDF目前也在开发中,现在还没有 .
https://issues.apache.org/jira/browse/SPARK-6817