目前,我可以从我的应用程序内部访问HDFS,但我也想 - 而不是运行我的本地spark - 使用Cloudera的Spark,因为它在Cloudera Manager中启用 .

现在,我在core-site.xml上定义了HDFS,并将我的应用程序作为(--master)YARN运行 . 因此,我不需要将机器地址设置为我的HDFS文件 . 通过这种方式,我的SPARK作业在本地运行,而不是在“集群”中运行 . 我现在不想这样 . 当我尝试将--master设置为[namenode]时:[port]它没有连接 . 我想知道我是否正在指向正确的端口,或者我是否必须在docker容器上映射此端口 . 或者,如果我错过了关于纱线设置的一些信息 .

此外,我一直在测试SnappyData(Inc)解决方案作为Spark SQL内存数据库 . 所以我的目标是在本地运行snappy JVM,但是将spark作业重定向到VM集群 . 这里的整个想法是针对一些Hadoop实现测试一些性能 . 这个解决方案不是最终产品(如果snappy是本地的,并且spark“真的”是远程的,我认为它不会很有效 - 但在这种情况下,我会将snappy JVM带到同一个集群中 . )

提前致谢!