我正在使用Spark来使用MLLIB训练GBT . 对于这个任务,我很困惑,如果我应该使用--master local [4]选择具有32个内核的1个强大节点,使用--master local [4]的火花本地模式的100GB RAM,或者具有8个核心的集群,每个集群独立模式20GB . 哪个会更快完成手头的任务,为什么?

使用--master local [4]实际上是否创建了与集群模式一样多的 Actuator /工作程序?

我知道在集群模式下,我可以选择更好的资源管理器,例如YARN和MESOS,这样可以带来一个好处,但是我只想比较本地和集群独立模式性能指标 .