pyspark:read.parquet,同时跳过丢失的文件

我认为这个问题与Spark : Read file only if the path exists有关,但另一个问题与Scala有关 .

我正在阅读 hdfs 中的文件:

df_list = sqlContext.read.option('basePath','/data/').parquet(*search_path)

问题是如果文件丢失, read 命令将抛出异常并停止 .

有没有办法让 read.parquet 跳过 search_path 列表中缺少的文件?

非常感谢

回答(1)

2 years ago

您可以使用相同的方法:使用python hdfs客户端来测试目录是否为空目录 .

有关进一步的用法,请参阅this link .