在pyspark中散列分区和范围分区-Java 学习之路

任何人都可以用示例解释散列分区和范围分区，我们如何使用它们在pyspark中重新分区我们的数据帧？重新分区数据框如何帮助提高连接性能？我们能看到哪些分区里面有哪些数据？何时在pyspark中使用选项bucketBy和partitionBy？

相关问题