我正在尝试将镶木地板转换为带有pyarrow的csv文件 .
df = pd.read_parquet('test.parquet')
上面的代码适用于从github下载的样本镶木地板文件 .
但是,当我尝试使用实际的大型镶木地板文件时,它会出现以下错误 .
File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetReader.read_all
File "error.pxi", line 79, in pyarrow.lib.check_status
pyarrow.lib.ArrowIOError: Arrow error: IOError: GZipCodec failed: incorrect header check
我试图使用fastparquet和pyspark读取镶木地板文件 . 但我得到类似的GZip错误 .
据我所知,它是压缩或未压缩的拼花文件,与我下载的样本不同 .
请建议任何代码或提供任何其他工具将这样的镶木地板文件转换为csv文件将是非常有帮助的 . 谢谢 .
编辑:似乎这些镶木地板文件是二进制格式,而不是镶木地板中的常用字符串值 . 有没有办法读二元拼花?
1 回答
这听起来很像你的Parquet文件坏了 . PySpark,Arrow和fastparquet是Parquet格式的独立实现,因此很可能不是读者中的错误而是损坏的文件 .
没有更多信息(例如,如何编写此文件),唯一的答案是您将无法阅读它 .
否则
pd.read_parquet(..).to_csv(..)
足以将Parquet文件转换为CSV .