我有一个关于在群集模式下在YARN上运行的Apache Spark的问题 . 根据this thread,Spark本身不必安装在集群中的每个(工作者)节点上 . 我的问题在于Spark Executors:通常,YARN或资源管理器应该决定资源分配 . 因此,Spark Executors可以在集群中的任何(工作者)节点上随机启动 . 但是,如果没有在任何(工作者)节点上安装Spark,那么YARN如何启动Spark Executors?
我有一个关于在群集模式下在YARN上运行的Apache Spark的问题 . 根据this thread,Spark本身不必安装在集群中的每个(工作者)节点上 . 我的问题在于Spark Executors:通常,YARN或资源管理器应该决定资源分配 . 因此,Spark Executors可以在集群中的任何(工作者)节点上随机启动 . 但是,如果没有在任何(工作者)节点上安装Spark,那么YARN如何启动Spark Executors?
1 回答
在高级别,当在YARN上启动Spark应用程序时,
将在其中一个YARN Container中创建应用程序主文件( Spark specific ) .
用于Spark工作者的其他YARN容器(Executors)
Spark driver will pass serialized actions(code) to executors 来处理数据 .
Edit: (2017-01-04)