首页 文章

无法读取镶木地板文件,导致Gzip代码失败错误

提问于
浏览
0

我正在尝试将镶木地板转换为带有pyarrow的csv文件 .

df = pd.read_parquet('test.parquet')

上面的代码适用于从github下载的样本镶木地板文件 .

但是,当我尝试使用实际的大型镶木地板文件时,它会出现以下错误 .

File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all
  File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: IOError: GZipCodec failed: incorrect header check

我试图使用fastparquet和pyspark读取镶木地板文件 . 但我得到类似的GZip错误 .

据我所知,它是压缩或未压缩的拼花文件,与我下载的样本不同 .

请建议任何代码或提供任何其他工具将这样的镶木地板文件转换为csv文件将是非常有帮助的 . 谢谢 .

编辑:似乎这些镶木地板文件是二进制格式,而不是镶木地板中的常用字符串值 . 有没有办法读二元拼花?

1 回答

  • 0

    这听起来很像你的Parquet文件坏了 . PySpark,Arrow和fastparquet是Parquet格式的独立实现,因此很可能不是读者中的错误而是损坏的文件 .

    没有更多信息(例如,如何编写此文件),唯一的答案是您将无法阅读它 .

    否则 pd.read_parquet(..).to_csv(..) 足以将Parquet文件转换为CSV .

相关问题