没有扩展名的PySpark S3 Gzip文件-Java 学习之路

我试图通过PySpark从S3读取一堆gzip压缩文件 . 通常textFile或spark-csv会自动解压缩gzips，但我正在使用的文件没有.gz扩展名，因此最终会被压缩后读入 . 有数百万个文件，它们由另一个团队拥有，并且每天都会更新多次 .

有没有办法强制告诉textFile或spark-csv API的压缩风格？或者还有其他方法可以复制和重命名文件吗？

相关问题