我使用AWS emr-5.0.0运行包含以下注释的小型集群:
-
1 Master - AWS on demand实例
-
1核心 - AWS on demand实例
-
2任务 - AWS SPOT实例
所有这些都是x3.xlarge机器 .
我运行了两个阶段的python spark应用程序 .
问题是当我手动终止其中一个TASK实例(或由于现货价格变化而终止)时,整个火花作业都会失败 .
我希望SPARK能够继续在剩余的节点上运行丢失的任务 . 请解释为什么它不会发生 .
下面是日志,主ip是172-31-1-0,核心实例是172-31-1-173,丢失不是ip是172-31-3-81) .