首页 文章

Pyspark 数据帧连接需要很长时间

提问于
浏览
2

我在 pyspark 中有 2 个数据框,是使用 2 个 sparksql 查询从 hive 数据库中加载的。

当我尝试使用df1.join(df2,df1.id_1=df2.id_2)联接两个数据框时,需要花费很长时间。当我调用 JOIN 时,Spark 是否会重新执行 df1 和 df2 的 SQL?

基础数据库是 HIVE

1 回答

  • -1

    与使用 Scala 相比,Pyspark 的速度会更慢,因为在 Python 进程和 JVM 之间会发生数据序列化,并且工作是在 Python 中完成的。

相关问题