Spark使用的核心数-Java 学习之路

我有一个非常简单的火花工作，读取百万电影评级，并告诉评级和评级的次数 . 作业在spark集群上运行，运行正常 .

关于我用来运行作业的参数有几个问题？

我有2个节点在运行 . 节点-1 = 24GB RAM和8 VCPU 's. Node-2 = 8GB RAM & 2 VCPU' s .

所以我完全拥有32GB内存和10个VCPU .

spark-submit命令 .

spark-submit --master spark://hadoop-master:7077 --executor-memory 4g --num-executors 4 --executor-cores 4 /home/hduser/ratings-counter.py

当我运行上述命令时，spark使用哪个内核，是来自node-1还是node-2，还是随机分配？

2.如果我不使用执行程序的数量，那么spark使用的默认执行程序是什么？

from pyspark import SparkConf, SparkContext
import collections


conf = SparkConf().setMaster("hadoop-master").setAppName("RatingsHistogram")
sc = SparkContext(conf = conf)

lines = sc.textFile("hdfs://hadoop-master:8020/user/hduser/gutenberg/ml-10M100K/ratings.dat")
ratings = lines.map(lambda x: x.split('::')[2])
result = ratings.countByValue()

sortedResults = collections.OrderedDict(sorted(result.items()))
for key, value in sortedResults.items():
    print("%s %i" % (key, value))

1 回答

0

是来自node-1还是node-2还是随机分配？

这实际上取决于您初始化的 Worker 数量 . 因为在你的spark-submit cmd中你总共指定了4个执行程序，每个执行程序将从Spark Worker的总内存和内核中分配4GB的内存和4个内核 . 查看每个执行程序启动的节点的一个简单方法是检查Spark的主UI（默认端口是8080）并从那里选择正在运行的应用程序 . 然后，您可以在应用程序的UI中检查执行程序选项卡 .

如果我不使用执行程序的数量，那么spark使用的默认执行程序是什么？

通常，它为每个worker实例初始化一个执行程序，并使用所有worker的资源 .

回复于 2024-05-04T11:25:26+08:00

Spark使用的核心数

1 回答

相关问题