我试图通过PySpark从S3读取一堆gzip压缩文件 . 通常textFile或spark-csv会自动解压缩gzips,但我正在使用的文件没有.gz扩展名,因此最终会被压缩后读入 . 有数百万个文件,它们由另一个团队拥有,并且每天都会更新多次 .

有没有办法强制告诉textFile或spark-csv API的压缩风格?或者还有其他方法可以复制和重命名文件吗?