Pyspark：数据帧中每个id的最后一个非空记录（Spark Streaming）-Java 学习之路

我有一个带架构的数据框 -

|-- record_id: integer (nullable = true)
 |-- Data1: string (nullable = true)
 |-- Data2: string (nullable = true)
 |-- Data3: string (nullable = true)
 |-- Time: timestamp (nullable = true)

我想检索数据中每列的最后一个非空值，按record_id分组并按时间排序 . 如果列的所有值（对于特定的record_is）为null，我希望在这种情况下显示null .

所以，如果数据最初是这样的：

+----------+---------+---------+---------+-----------------------+
 |record_id |Data1    |Data2    |Data3    |                   Time|
 +----------+---------+-------------------------------------------+
 |        1 | aaa     | null    |  null   | 2018-06-04 21:51:53.0 |
 |        1 | null    | bbbb    |  cccc   | 2018-06-05 21:51:53.0 |
 |        1 | aaa     | null    |  dddd   | 2018-06-06 21:51:53.0 |
 |        1 | null    | null    |  eeee   | 2018-06-07 21:51:53.0 |
 |        2 | aaa     | null    |  null   | 2018-06-04 21:51:53.0 |
 |        2 | null    | bbbb    |  cccc   | 2018-06-05 21:51:53.0 |
 |        3 | aaa     | null    |  dddd   | 2018-06-06 21:51:53.0 |
 |        3 | null    | null    |  eeee   | 2018-06-08 21:51:53.0 |

我想要输出

+----------+---------+---------+---------+-----------------------+
 |record_id |Data1    |Data2    |Data3    |                   Time|
 +----------+---------+-------------------------------------------+
 |        1 | aaaa    | bbbb    |  eeee   | 2018-06-07 21:51:53.0 |
 |        2 | aaaa    | bbbb    |  cccc   | 2018-06-05 21:51:53.0 |
 |        3 | aaaa    | null    |  eeee   | 2018-06-08 21:51:53.0 |

我想在Pyspark中使用Spark SQL执行此操作 . 我能得到的最接近的答案是this和this虽然第一个是在mysql中，而第二个没有对记录进行分组 .

Pyspark：数据帧中每个id的最后一个非空记录（Spark Streaming）

相关问题