Spark集群 - 在hadoop上读/写

我想从hadoop读取数据,在spark上处理,并在hadoop和弹性搜索上得到wirte结果 . 我有很少的工作节点来做这件事 .

Spark独立集群就足够了?或者我是否需要使用hadoop集群来使用纱线或介子?

如果独立集群模式足够,应该在所有节点上设置jar文件,而不像yarn,mesos模式吗?

回答(1)

2 years ago

首先,您无法在Hadoop中写入数据或从Hadoop读取数据 . 它是HDFS(Hadoop生态系统的组件),负责数据的读/写 . 现在回答你的问题

  • 是的,可以从HDFS读取数据并在spark引擎中处理它,然后在HDFS上写入输出 .

  • YARN,mesos和spark standalone都是集群管理器,您可以使用它们中的任何一个来管理集群中的资源,它与hadoop无关 . 但是,由于您想要从/向HDFS读取和写入数据,因此您需要在群集上安装HDFS,因此最好在所有节点上安装hadoop,这些节点也将在所有节点上安装HDFS . 现在,无论你想使用YARN,mesos还是独立的spark独立都可以使用HDFS我自己使用spark standalone进行集群管理 .

  • 目前还不清楚你正在谈论哪些jar文件,但我认为它会产生火花然后是的你需要在每个节点上设置火花 jar 的路径,以便在火花运行时路径不会出现矛盾 .