SPARK独立群集模式下的工作者数量

提问于 2024-04-16T18:22:59+08:00

浏览次

0

如何确定spark独立集群模式下的worker数量？当我在独立群集模式下添加工作程序时，持续时间将减少 .

例如，对于我的输入数据3.5 G，WordCount需要3.8分钟 . 但是，我添加一名内存4 G的工作人员需要2.6分钟 .

添加工作人员调整火花可以吗？我正在考虑风险 .

我的环境设置如下，

内存128 G，16个CPU用于9个VM
Centos
Hadoop 2.5.0-cdh5.2.0
Spark 1.1.0

输入数据信息

来自HDFS的

3.5 G数据文件

1 回答

1

您可以调整执行程序（JVM的数量及其内存）以及任务数 . 如果您正在做的事情可以从并行性中受益，您可以通过配置来旋转更多执行程序并增加任务数量（通过在代码中调用分区/合并等） .

当您设置并行度时，如果您正在进行大多数IO或计算等，一般来说Spark recommendation是针对每个CPU核心2-3个任务

回复于 2024-04-16T18:22:59+08:00

相关问题