使用Snappy压缩的Parquet格式的Redshift COPY命令

提问于 2024-04-27T11:59:21+08:00

浏览次

5

我在HDFS中有数据集，它采用镶木地板格式，并且有snappy作为压缩编解码器 . 就我的研究而言，目前Redshift只接受带有gzip，lzo压缩编解码器的纯文本，json，avro格式 .

或者，我正在将镶木地板格式转换为纯文本，并使用Pig脚本将snappy编解码器更改为gzip .

目前有没有办法直接从镶木地板文件加载数据到Redshift？

1 回答

10

不，目前无法将Parquet格式数据直接加载到Redshift中 .

编辑：从2017年4月19日开始，您可以使用Redshift Spectrum直接查询S3上的Parquet数据 . 所以你现在可以从Parquet "load" INSERT INTO x SELECT * FROM parquet_data http://docs.aws.amazon.com/redshift/latest/dg/c-using-spectrum.html

编辑2：从2018年5月17日开始（对于版本1.0.2294或更高版本的集群），您可以直接将Parquet和ORC文件加载到Redshift中 . https://docs.aws.amazon.com/redshift/latest/dg/copy-usage_notes-copy-from-columnar.html

回复于 2024-04-27T11:59:21+08:00

相关问题