首页 文章

在Spark 2.0中加载压缩的gzip压缩文件

提问于
浏览
1

如何在Spark 2.0上的Pyspark中加载gzip压缩的csv文件?

我知道可以按如下方式加载未压缩的csv文件:

spark.read.format("csv").option("header",          
                                "true").load("myfile.csv")

要么

spark.read.option("header", "true").csv("myfile.csv")

2 回答

  • 1

    我刚刚发现以下内容适用于gzipped csv文件:

    spark.read.option("header", "true").csv("myfile.csv")
    
  • 8

    你可以用 spark.sparkContext.textFile("file.gz")

    文件扩展名应为 .gz

相关问题