将Pandas Dataframe转换为Spark Dataframe时实际发生了什么-Java 学习之路

将Pandas Dataframe转换为Spark Dataframe时实际发生了什么

提问于 2024-04-26T16:08:34+08:00

浏览次

据我所知，当用户在Spark DataFrame上调用 toPandas 时，Spark会执行所有转换，聚合数据并将结果存储在客户端计算机的内存中 .

（如What is the Spark DataFrame method toPandas actually doing?中所述）

这是否意味着，假设我有pandas DataFrame，如果我使用这个（任何本地）pandas DataFrame创建Spark DataFrame，Spark分区（？）并分发（？）Pandas DataFrame并返回Spark DataFrame（基本上是RDD，它是不可变的，开始跟踪应用于DataFrame的转换）???

我只想了解幕后发生的事情

谢谢

将Pandas Dataframe转换为Spark Dataframe时实际发生了什么

相关问题