SPARK独立群集模式下的工作者数量

如何确定spark独立集群模式下的worker数量?当我在独立群集模式下添加工作程序时,持续时间将减少 .

例如,对于我的输入数据3.5 G,WordCount需要3.8分钟 . 但是,我添加一名内存4 G的工作人员需要2.6分钟 .

添加工作人员调整火花可以吗?我正在考虑风险 .

我的环境设置如下,

  • 内存128 G,16个CPU用于9个VM

  • Centos

  • Hadoop 2.5.0-cdh5.2.0

  • Spark 1.1.0

输入数据信息

来自HDFS的

  • 3.5 G数据文件

回答(1)

2 years ago

您可以调整执行程序(JVM的数量及其内存)以及任务数 . 如果您正在做的事情可以从并行性中受益,您可以通过配置来旋转更多执行程序并增加任务数量(通过在代码中调用分区/合并等) .

当您设置并行度时,如果您正在进行大多数IO或计算等,一般来说Spark recommendation是针对每个CPU核心2-3个任务