我正在比较spark的parquets文件和apache-drill的 . Drill的镶木地板比Spark更轻巧 . Spark使用GZIP作为默认的压缩编解码器,为了试验我尝试将其更改为snappy:相同大小未压缩:相同大小lzo:exception
我试过两种方式:
sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")
但似乎它不会改变他的设置
5 回答
尝试:
我看到你已经这样做了,但是我无法在手机上删除我的答案 . 尝试在注释中建议的sqlcontext之前设置它 .
在通过hive上下文存储到Hive时遇到问题时使用:
在2.1.1中为我工作
对于spark 1.3和spark.sql.parquet.compression.codec参数没有压缩输出 . 但下面的确有效 .
sqlContext.sql(“SET parquet.compression = SNAPPY”)
试试这个 . 似乎在1.6.0中为我工作