我试图理解 coalesce
如何确定如何将初始分区加入到最终问题中,显然"preferred location"与它有关 .
根据this question,Scala Spark有一个函数 preferredLocations(split: Partition)
可以识别这个 . 但我并不熟悉Spark的Scala方面 . 有没有办法在PySpark级别确定给定行或分区ID的首选位置?
我试图理解 coalesce
如何确定如何将初始分区加入到最终问题中,显然"preferred location"与它有关 .
根据this question,Scala Spark有一个函数 preferredLocations(split: Partition)
可以识别这个 . 但我并不熟悉Spark的Scala方面 . 有没有办法在PySpark级别确定给定行或分区ID的首选位置?
1 回答
是的,这在理论上是可行的 . 强制某种形式的偏好的示例数据(可能有一个更简单的例子):
现在您可以定义一个帮助器:
应用: