首页 文章

如何制作火花星团?

提问于
浏览
2

我的大型物理机有16个CPU,256 GB RAM,20 TB硬盘 . 我只需要知道制作火花星团的最佳解决方案是什么?

如果我需要处理TB数据,那么1.只有一台机器,包含驱动程序,执行程序,作业跟踪器和任务跟踪器 . 2.创建4个VM,每个VM应包含4个CPU,64 GB RAM 3.创建8个VM,每个VM应包含2个CPU,每个32 GB RAM

请给我你的意见/建议

3 回答

  • 1

    选项1是您的最佳选择 . 如果您开始创建VM,那么由于合并了并行执行的结果,将会出现网络开销 . 此外,根据您提供的规格,您将在同一台计算机上创建VM . 因此,由于VM,这也会增加额外的开销 . 此外,x vms表示RAM中的x OS内核,而后者可以由spark worker使用 . 除了spark,您还可以检测机器上的核心并自行并行化操作 .

  • 0

    如果您只有一台机器以获得最佳性能,请使用本地群集 . 将主设备设置为“ local[numthreads] ”设置最适合您作业的线程数 .

    您可以在本地模式下启动spark,即在代码中设置 conf.setMaster("local[numthreads]")

    在提交作业时使用 --master local[numthreads] .

    如果您开始创建VM,则会出现网络开销,CPU和RAM浪费

  • 0

    根据Udemy老师Frank Kane的说法his tutorial,选项1更好 . 一台机器上有's really no point to setting up VM',试图模拟一个集群 . 当您设置 SparkConf 时,可以使用 setMaster("local[*]") 让它利用笔记本电脑上的所有核心并自动分配工作,就像在群集上一样 .

相关问题