我使用AWS emr-5.0.0运行包含以下注释的小型集群:

  • 1 Master - AWS on demand实例

  • 1核心 - AWS on demand实例

  • 2任务 - AWS SPOT实例

所有这些都是x3.xlarge机器 .

我运行了两个阶段的python spark应用程序 .

问题是当我手动终止其中一个TASK实例(或由于现货价格变化而终止)时,整个火花作业都会失败 .

我希望SPARK能够继续在剩余的节点上运行丢失的任务 . 请解释为什么它不会发生 .

下面是日志,主ip是172-31-1-0,核心实例是172-31-1-173,丢失不是ip是172-31-3-81) .

log file (stderr and stdout from spark-submit)