Spark SQL - pyspark api vs sql查询

提问于 2024-04-19T22:39:35+08:00

浏览次

2

所有，

我有关于编写SparkSQL程序的问题，写入之间是否存在性能差异

SQLContext.sql("select count(*) from (select distinct col1,col2 from table))")
使用pyspark Api： df.select("col1,col2").distinct().count() .

我想听听建议和正确的方法来转换非常大的查询，如（1000行）加入10个表到Py-Spark程序

我来自SQL背景，我们正在努力将现有逻辑转换为hadoop，因此SQL很方便 .

相关问题