首页 文章
  • 1 votes
     answers
     views

    从Spark Streaming编写Snappy Parquet

    我有兴趣使用Snappy Parquet来使用Spark Streaming来保存事件 . 我正在考虑Parquet的柱状特性,以及Snappy的压缩,我认为它们在一次一个地写入事件或一次一个微批处理的情况下可能没有 Value . 我没有特别体验过Snappy和Parquet,但是使用其他压缩算法和柱状数据库,他们通常都需要大块数据才能生效 . 我的担忧是否合理?这种情况下的一般建议是什么?
  • 0 votes
     answers
     views

    Spark com.databricks.spark.csv无法使用node-snappy加载snappy压缩文件

    我在S3上有一些使用snappy压缩算法压缩的csv文件(使用 node-snappy 包) . 我喜欢使用 com.databricks.spark.csv 在spark中处理这些文件,但我一直收到无效的文件输入错误 . 码: file_df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', i...
  • 0 votes
     answers
     views

    Spark 2.x - gzip vs snappy压缩镶木地板文件

    我(第一次)试图重新分配我的团队正在使用的数据,以增强我们的查询性能 . 我们的数据目前存储在使用gzip压缩的分区.parquet文件中 . 我一直在阅读使用snappy而不是显着提高吞吐量(我们每天查询这些数据以供分析) . 我仍然希望对两个编解码器进行基准测试,以便亲眼看到性能差距 . 我写了一个简单的(Py)Spark 2.1.1应用程序来进行一些测试 . 我在一个分区中将50万条记录保存...
  • 5 votes
     answers
     views

    使用Snappy压缩的Parquet格式的Redshift COPY命令

    我在HDFS中有数据集,它采用镶木地板格式,并且有snappy作为压缩编解码器 . 就我的研究而言,目前Redshift只接受带有gzip,lzo压缩编解码器的纯文本,json,avro格式 . 或者,我正在将镶木地板格式转换为纯文本,并使用Pig脚本将snappy编解码器更改为gzip . 目前有没有办法直接从镶木地板文件加载数据到Redshift?
  • 3 votes
     answers
     views

    Spark Parquet Snappy:火花改组数据后整体压缩比下降

    Commmunity! 请帮助我了解如何通过Spark获得更好的压缩比? 让我来描述一下案例: 我有数据集,让我们在HDFS上调用它 product ,这是使用编解码器 snappy 使用Sqoop ImportTool as-parquet-file导入的 . 作为导入的结果,我有100个文件,总共46 GB du,文件大小不同(最小11MB,最大1.5GB,平均~500MB) . 记录总数...
  • 2 votes
     answers
     views

    在Couchbase中压缩JSON文档

    在我们的应用程序中,我们将JSON文档存储在Couchbase中,其结构如下: {“type”:“sometype”,“timestamp”:1458999,“data”:“{\”key1 \“:\”val1 \“,\”key2 \“:\”val2 \“}”} data 字段的值是一个非常大的 stringified json文档,大约5-10MB的文本 . 我们把它作为一个字符串(字符串化的j...
  • 1 votes
     answers
     views

    错误LNK2019:未解析的外部符号(带有snappy库的项目)

    我想测试snappy库,但在编译我的项目时我有2个错误: 1> main.obj:错误LNK2019:未解析的外部符号“bool __cdecl snappy :: Uncompress(char const *,unsigned int,class std :: basic_string,class std :: allocator> *)”(?uncompress @ snappy...

热门问题