Spark不使用spark.sql.parquet.compression.codec-Java 学习之路

我正在比较spark的parquets文件和apache-drill的 . Drill的镶木地板比Spark更轻巧 . Spark使用GZIP作为默认的压缩编解码器，为了试验我尝试将其更改为snappy：相同大小未压缩：相同大小lzo：exception

我试过两种方式：

sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")

但似乎它不会改变他的设置

5 回答

在2.1.1中为我工作

df.write.option("compression","snappy").parquet(filename)

回复于 2024-05-08T12:58:24+08:00

试试这个 . 似乎在1.6.0中为我工作

val sc = new SparkContext(sparkConf)
val sqlContext = new HiveContext(sc)
sqlContext.setConf("spark.sql.parquet.compression.codec", "uncompressed")

回复于 2024-05-08T12:58:24+08:00