在PySpark中的每个节点上执行代码

提问于 2024-04-27T07:37:09+08:00

浏览次

0

我想使用PySpark在每个节点上执行某些操作，如下所示：

rdd = sqlContext.read.parquet("...").rdd
 def f (i):
   import sys, socket
   return [(socket.gethostname(),sys.version)]
 vv = rdd.mapPartitions(f).collect()

但我不明白为什么我需要加载一个文件 .

我怎么做？

1 回答

1

如果你只想要任何旧的RDD，你可以使用 sc.parallelize(range(num_executors), num_executors) 或类似的东西 .

回复于 2024-04-27T07:37:09+08:00

相关问题