我想使用PySpark在每个节点上执行某些操作,如下所示:
rdd = sqlContext.read.parquet("...").rdd def f (i): import sys, socket return [(socket.gethostname(),sys.version)] vv = rdd.mapPartitions(f).collect()
但我不明白为什么我需要加载一个文件 .
我怎么做?
如果你只想要任何旧的RDD,你可以使用 sc.parallelize(range(num_executors), num_executors) 或类似的东西 .
sc.parallelize(range(num_executors), num_executors)
1 回答
如果你只想要任何旧的RDD,你可以使用
sc.parallelize(range(num_executors), num_executors)
或类似的东西 .