我有以下示例数据集:
groupby prevoius current
A 1 1
A 0 1
A 0 0
A 1 0
A 1 1
A 0 1
我想通过汇总“previous”和“current”列来创建下表 .
previous_total current_total
3 4
我尝试了.byg的所有组合组合并试图实现上面的表格,但是无法获得任何成功运行的东西 .
我也知道如何在Python Pandas中执行此操作,但不知道Pyspark .
2 回答
你可以使用和
sum
:使用
sum
和groupBy
方法:此外,您可以将数据帧注册为临时表,并使用Spark SQL进行查询,这将得到相同的结果: