首页 文章

Spark上的Hadoop YARN - 执行者遗失

提问于
浏览
0

我有一个运行Hadoop和Spark-1.5.2的3台macOS机器的集群(尽管Spark-2.0.0存在同样的问题) . 使用'yarn'作为Spark主URL,我遇到了一个奇怪的问题,即任务只分配给3台机器中的2台 .

基于Hadoop仪表板(主站上的端口8088),很明显所有3个节点都是集群的一部分 . 但是,我运行的任何Spark作业只使用2个执行程序 .

例如,这是JavaWordCount示例的长时间运行的"Executors"选项卡:
enter image description here
"batservers"是主服务器 . 应该有一个额外的奴隶,"batservers2",但它不存在 .

为什么会这样?

请注意,除了为YARN资源和节点管理器提供额外内存的规定外,我的YARN或Spark(或者,就此而言,HDFS)配置都不常见 .

1 回答

  • 0

    值得注意的是,只需详细查看spark-submit帮助消息即可找到答案:

    YARN-only:... --num-executors NUM要启动的执行程序数(默认值:2) .

    如果我在spark-submit命令中指定 --num-executors 3 ,则使用第3个节点 .

相关问题