据我所知,当用户在Spark DataFrame上调用 toPandas 时,Spark会执行所有转换,聚合数据并将结果存储在客户端计算机的内存中 .

(如What is the Spark DataFrame method toPandas actually doing?中所述)

这是否意味着,假设我有pandas DataFrame,如果我使用这个(任何本地)pandas DataFrame创建Spark DataFrame,Spark分区(?)并分发(?)Pandas DataFrame并返回Spark DataFrame(基本上是RDD,它是不可变的,开始跟踪应用于DataFrame的转换)???

我只想了解幕后发生的事情

谢谢