所有,
我有关于编写SparkSQL程序的问题,写入之间是否存在性能差异
-
SQLContext.sql("select count(*) from (select distinct col1,col2 from table))")
-
使用pyspark Api:
df.select("col1,col2").distinct().count()
.
我想听听建议和正确的方法来转换非常大的查询,如(1000行)加入10个表到Py-Spark程序
我来自SQL背景,我们正在努力将现有逻辑转换为hadoop,因此SQL很方便 .