所有,

我有关于编写SparkSQL程序的问题,写入之间是否存在性能差异

  • SQLContext.sql("select count(*) from (select distinct col1,col2 from table))")

  • 使用pyspark Api: df.select("col1,col2").distinct().count() .

我想听听建议和正确的方法来转换非常大的查询,如(1000行)加入10个表到Py-Spark程序

我来自SQL背景,我们正在努力将现有逻辑转换为hadoop,因此SQL很方便 .