我有两个表要合并在一起。其中之一的数据偏斜非常严重。这导致我的 spark 作业无法并行运行,因为大部分工作是在一个分区上完成的。
我听说过并且阅读过,并尝试对密钥加盐以增加分布。我想在 12:45 秒时https://www.youtube.com/watch?v=WyfHUNnMutg正是我要做的。
任何帮助或提示,将不胜感激。谢谢!
我有两个表要合并在一起。其中之一的数据偏斜非常严重。这导致我的 spark 作业无法并行运行,因为大部分工作是在一个分区上完成的。
我听说过并且阅读过,并尝试对密钥加盐以增加分布。我想在 12:45 秒时https://www.youtube.com/watch?v=WyfHUNnMutg正是我要做的。
任何帮助或提示,将不胜感激。谢谢!
1 回答
是的,您应该在较大的表上使用加盐键(通过随机化),然后将较小的键/笛卡尔复制到新的加盐键:
这里有一些建议:
python 倾斜加入:https://datarus.wordpress.com/2015/05/04/fighting-the-skew-in-spark/
tresata
库如下所示: