我在 pyspark 中有 2 个数据框,是使用 2 个 sparksql 查询从 hive 数据库中加载的。
当我尝试使用df1.join(df2,df1.id_1=df2.id_2)联接两个数据框时,需要花费很长时间。当我调用 JOIN 时,Spark 是否会重新执行 df1 和 df2 的 SQL?
df1.join(df2,df1.id_1=df2.id_2)
基础数据库是 HIVE
与使用 Scala 相比,Pyspark 的速度会更慢,因为在 Python 进程和 JVM 之间会发生数据序列化,并且工作是在 Python 中完成的。
1 回答
与使用 Scala 相比,Pyspark 的速度会更慢,因为在 Python 进程和 JVM 之间会发生数据序列化,并且工作是在 Python 中完成的。