Spark集群 - 在hadoop上读/写

提问于 2024-04-19T17:53:44+08:00

浏览次

1

我想从hadoop读取数据，在spark上处理，并在hadoop和弹性搜索上得到wirte结果 . 我有很少的工作节点来做这件事 .

Spark独立集群就足够了？或者我是否需要使用hadoop集群来使用纱线或介子？

如果独立集群模式足够，应该在所有节点上设置jar文件，而不像yarn，mesos模式吗？

1 回答

2
首先，您无法在Hadoop中写入数据或从Hadoop读取数据 . 它是HDFS（Hadoop生态系统的组件），负责数据的读/写 . 现在回答你的问题
- 是的，可以从HDFS读取数据并在spark引擎中处理它，然后在HDFS上写入输出 .
- YARN，mesos和spark standalone都是集群管理器，您可以使用它们中的任何一个来管理集群中的资源，它与hadoop无关 . 但是，由于您想要从/向HDFS读取和写入数据，因此您需要在群集上安装HDFS，因此最好在所有节点上安装hadoop，这些节点也将在所有节点上安装HDFS . 现在，无论你想使用YARN，mesos还是独立的spark独立都可以使用HDFS我自己使用spark standalone进行集群管理 .
- 目前还不清楚你正在谈论哪些jar文件，但我认为它会产生火花然后是的你需要在每个节点上设置火花 jar 的路径，以便在火花运行时路径不会出现矛盾 .
回复于 2024-04-19T17:53:44+08:00

相关问题