首页 文章

PySpark和访问HDFS

提问于
浏览
1

我正在尝试获取我已复制到HDFS的文件,但是我似乎无法明确如何实际连接 . 例如,我使用以下命令将文件放入HDFS:

hdfs dfs -put ~/spark-1.4.0/XXX/YYY input

哪个工作正常,但现在是从PySpark定位它们的问题 . 火花的文档指向:https://spark.apache.org/docs/latest/hadoop-third-party-distributions.html

我正在使用与hadoop2.6匹配的spark版本,但我没有在上面链接指向的目录中看到任何conf文件 .

我可以直接访问输入文件 - 还是需要使用PySpark进行更多配置?

1 回答

  • 3

    所以Spark没有附带hadoop-site或yarn-site文件,因为这些文件特定于你的hadoop安装 .

    您应该更新spark-env.sh脚本以指向文件所在的配置目录 . 如果找不到hadoop-site.xml文件,您可以尝试运行export和grep for CONF并检查 YARN_CONF_DIRHADOOP_CONF_DIR . 如果你找不到其中任何一个,你的hdfs命令可能已经找到了你的配置,所以你总是可以在它上面运行strace并查找它从哪里加载配置文件 .

相关问题