如何连接到spark（远程CDH-5.8 docker vms）？我需要在容器上映射端口7077吗？-Java 学习之路

目前，我可以从我的应用程序内部访问HDFS，但我也想 - 而不是运行我的本地spark - 使用Cloudera的Spark，因为它在Cloudera Manager中启用 .

现在，我在core-site.xml上定义了HDFS，并将我的应用程序作为（--master）YARN运行 . 因此，我不需要将机器地址设置为我的HDFS文件 . 通过这种方式，我的SPARK作业在本地运行，而不是在“集群”中运行 . 我现在不想这样 . 当我尝试将--master设置为[namenode]时：[port]它没有连接 . 我想知道我是否正在指向正确的端口，或者我是否必须在docker容器上映射此端口 . 或者，如果我错过了关于纱线设置的一些信息 .

此外，我一直在测试SnappyData（Inc）解决方案作为Spark SQL内存数据库 . 所以我的目标是在本地运行snappy JVM，但是将spark作业重定向到VM集群 . 这里的整个想法是针对一些Hadoop实现测试一些性能 . 这个解决方案不是最终产品（如果snappy是本地的，并且spark“真的”是远程的，我认为它不会很有效 - 但在这种情况下，我会将snappy JVM带到同一个集群中 . ）

提前致谢！

如何连接到spark（远程CDH-5.8 docker vms）？我需要在容器上映射端口7077吗？

相关问题