pyspark:read.parquet,同时跳过丢失的文件

loading...


0

我认为这个问题与Spark : Read file only if the path exists有关,但另一个问题与Scala有关 .

我正在阅读 hdfs 中的文件:

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

问题是如果文件丢失, read 命令将抛出异常并停止 .

有没有办法让 read.parquet 跳过 search_path 列表中缺少的文件?

非常感谢

loading...

1回答

  • 0

    您可以使用相同的方法:使用python hdfs客户端来测试目录是否为空目录 .

    有关进一步的用法,请参阅this link .

评论

暂时没有评论!