无法读取镶木地板文件，导致Gzip代码失败错误-Java 学习之路

我正在尝试将镶木地板转换为带有pyarrow的csv文件 .

df = pd.read_parquet('test.parquet')

上面的代码适用于从github下载的样本镶木地板文件 .

但是，当我尝试使用实际的大型镶木地板文件时，它会出现以下错误 .

File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all
  File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: IOError: GZipCodec failed: incorrect header check

我试图使用fastparquet和pyspark读取镶木地板文件 . 但我得到类似的GZip错误 .

据我所知，它是压缩或未压缩的拼花文件，与我下载的样本不同 .

请建议任何代码或提供任何其他工具将这样的镶木地板文件转换为csv文件将是非常有帮助的 . 谢谢 .

编辑：似乎这些镶木地板文件是二进制格式，而不是镶木地板中的常用字符串值 . 有没有办法读二元拼花？

1 回答

0

这听起来很像你的Parquet文件坏了 . PySpark，Arrow和fastparquet是Parquet格式的独立实现，因此很可能不是读者中的错误而是损坏的文件 .

没有更多信息（例如，如何编写此文件），唯一的答案是您将无法阅读它 .

否则 pd.read_parquet(..).to_csv(..) 足以将Parquet文件转换为CSV .

回复于 2024-04-20T14:39:25+08:00

无法读取镶木地板文件，导致Gzip代码失败错误

1 回答

相关问题