从运行Spark的另一个Docker容器写入在Docker中运行的HDFS-Java 学习之路

我有一个用于spark jupyter的码头图像（https://github.com/zipfian/spark-install）

我有另一个用于hadoop的码头图像 . （https://github.com/kiwenlau/hadoop-cluster-docker）

我正在Ubuntu上面的2张图片中运行2个容器 . 对于第一个容器：我能够成功启动jupyter并运行python代码：

import pyspark
   sc = pyspark.sparkcontext('local[*]')
   rdd = sc.parallelize(range(1000))
   rdd.takeSample(False,5)

对于第二个容器：

在主机Ubuntu OS中，我能够成功进入

enter image description here

现在我想从jupyter（在第一个容器中运行）写入HDFS文件系统（在第二个容器中运行） .

所以我添加了额外的一行

rdd.saveAsTextFile("hdfs:///user/root/input/test")

我收到错误：

HDFS URI, no host: hdfs:///user/root/input/test

我错误地给出了hdfs路径吗？

我的理解是，我应该能够从另一个运行spark的容器中运行hdfs的docker容器 . 我错过了什么吗？

谢谢你的时间 .

我还没有尝试过docker compose .

1 回答