如何在Spark 2.0上的Pyspark中加载gzip压缩的csv文件?
我知道可以按如下方式加载未压缩的csv文件:
spark.read.format("csv").option("header", "true").load("myfile.csv")
要么
spark.read.option("header", "true").csv("myfile.csv")
我刚刚发现以下内容适用于gzipped csv文件:
你可以用 spark.sparkContext.textFile("file.gz")
spark.sparkContext.textFile("file.gz")
文件扩展名应为 .gz
.gz
2 回答
我刚刚发现以下内容适用于gzipped csv文件:
你可以用
spark.sparkContext.textFile("file.gz")
文件扩展名应为
.gz