PySpark和访问HDFS

提问于 2024-04-20T04:37:17+08:00

浏览次

1

我正在尝试获取我已复制到HDFS的文件，但是我似乎无法明确如何实际连接 . 例如，我使用以下命令将文件放入HDFS：

hdfs dfs -put ~/spark-1.4.0/XXX/YYY input

哪个工作正常，但现在是从PySpark定位它们的问题 . 火花的文档指向：https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html

我正在使用与hadoop2.6匹配的spark版本，但我没有在上面链接指向的目录中看到任何conf文件 .

我可以直接访问输入文件 - 还是需要使用PySpark进行更多配置？

1 回答

3

所以Spark没有附带hadoop-site或yarn-site文件，因为这些文件特定于你的hadoop安装 .

您应该更新spark-env.sh脚本以指向文件所在的配置目录 . 如果找不到hadoop-site.xml文件，您可以尝试运行export和grep for CONF并检查 YARN_CONF_DIR 或 HADOOP_CONF_DIR . 如果你找不到其中任何一个，你的hdfs命令可能已经找到了你的配置，所以你总是可以在它上面运行strace并查找它从哪里加载配置文件 .

回复于 2024-04-20T04:37:17+08:00

相关问题