我在pyspark中有以下代码,生成一个表格,显示列的不同值及其计数 . 我想要另一列显示每行代表总计数的百分比 . 我怎么做?
difrgns = (df1 .groupBy("column_name") .count() .sort(desc("count")) .show())
提前致谢!
一个例子作为替代,如果不满意Windowing作为评论提到并且是更好的方式:
# Running in Databricks, not all stuff required from pyspark.sql import Row from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import * #from pyspark.sql.functions import col data = [("A", "X", 2, 100), ("A", "X", 7, 100), ("B", "X", 10, 100), ("C", "X", 1, 100), ("D", "X", 50, 100), ("E", "X", 30, 100)] rdd = sc.parallelize(data) someschema = rdd.map(lambda x: Row(c1=x[0], c2=x[1], val1=int(x[2]), val2=int(x[3]))) df = sqlContext.createDataFrame(someschema) tot = df.count() df.groupBy("c1") \ .count() \ .withColumnRenamed('count', 'cnt_per_group') \ .withColumn('perc_of_count_total', (F.col('cnt_per_group') / tot) * 100 ) \ .show()
收益:
+---+-------------+-------------------+ | c1|cnt_per_group|perc_of_count_total| +---+-------------+-------------------+ | E| 1| 16.666666666666664| | B| 1| 16.666666666666664| | D| 1| 16.666666666666664| | C| 1| 16.666666666666664| | A| 2| 33.33333333333333| +---+-------------+-------------------+
我专注于Scala,这似乎更容易 . 也就是说,通过注释建议的解决方案使用Window,这是我在Scala中用over()做的 .
1 回答
一个例子作为替代,如果不满意Windowing作为评论提到并且是更好的方式:
收益:
我专注于Scala,这似乎更容易 . 也就是说,通过注释建议的解决方案使用Window,这是我在Scala中用over()做的 .