Apache Flink中的全局排序

提问于 2024-04-26T03:37:33+08:00

浏览次

9

数据集的sortPartition方法根据某些指定的字段在本地对数据集进行排序 . 如何在Flink中以高效的方式全局排序我的大型数据集？

1 回答

14
目前这不容易实现，因为Flink还没有提供内置的范围分区策略 .

解决方法是实现自定义 Partitioner ：
```
DataSet<Tuple2<Long, Long>> data = ...
data
  .partitionCustom(new Partitioner<Long>() {
    int partition(Long key, int numPartitions) {
      // your implementation
    }
  }, 0)
  .sortPartition(0, Order.ASCENDING)
  .writeAsText("/my/output");
```
Note ：为了使用自定义分区程序实现 balancer 分区，您需要了解密钥的值范围和分布 .

Apache Flink中对范围分区器（带自动采样）的支持目前是work in progress，应该很快就可以使用 .

Edit (June 7th, 2016) ：范围分区已添加到Apache Flink 1.0.0版 . 您可以按如下方式对数据集进行全局排序：
```
DataSet<Tuple2<Long, Long>> data = ...
data
  .partitionByRange(0)
  .sortPartition(0, Order.ASCENDING)
  .writeAsText("/my/output");
```
请注意，范围分区对输入数据集进行采样，以计算大小相等的分区的数据分布 .
回复于 2024-04-26T03:37:33+08:00

相关问题