从高负载节点读取Shuffle数据

我正在Spark集群中运行一个实验,其中一些机器高负载CPU,内存和网络消耗过程(让我们称之为落后机器) .

显然,这些机器的任务执行时间比集群的其他节点要长 . 但是我注意到,从这些“落后者机器”获取随机数据的任务也会因长的Read Shuffle Data阶段而延迟 .

无论如何知道任务正在从哪台机器读取其随机数据?像node1这样的东西是从[node2,node3和node4]读取它的shuffle数据?

提前致谢

回答(0)