首页 文章

Spark不使用spark.sql.parquet.compression.codec

提问于
浏览
2

我正在比较spark的parquets文件和apache-drill的 . Drill的镶木地板比Spark更轻巧 . Spark使用GZIP作为默认的压缩编解码器,为了试验我尝试将其更改为snappy:相同大小未压缩:相同大小lzo:exception

我试过两种方式:

sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")

但似乎它不会改变他的设置

5 回答

  • 2

    尝试:

    sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")
    

    我看到你已经这样做了,但是我无法在手机上删除我的答案 . 尝试在注释中建议的sqlcontext之前设置它 .

  • 1

    在通过hive上下文存储到Hive时遇到问题时使用:

    hc.sql("set parquet.compression=snappy")
    
  • 3

    在2.1.1中为我工作

    df.write.option("compression","snappy").parquet(filename)
    
  • 0

    对于spark 1.3和spark.sql.parquet.compression.codec参数没有压缩输出 . 但下面的确有效 .

    sqlContext.sql(“SET parquet.compression = SNAPPY”)

  • 0

    试试这个 . 似乎在1.6.0中为我工作

    val sc = new SparkContext(sparkConf)
    val sqlContext = new HiveContext(sc)
    sqlContext.setConf("spark.sql.parquet.compression.codec", "uncompressed")
    

相关问题