-
0 votesanswersviews
无法读取镶木地板文件,导致Gzip代码失败错误
我正在尝试将镶木地板转换为带有pyarrow的csv文件 . df = pd.read_parquet('test.parquet') 上面的代码适用于从github下载的样本镶木地板文件 . 但是,当我尝试使用实际的大型镶木地板文件时,它会出现以下错误 . File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetR... -
11 votesanswersviews
如何在python中使用pyarrow从S3读取分区的镶木地板文件
我正在寻找使用python从s3读取多个分区目录数据的方法 . data_folder / serial_number = 1 / cur_date = 20-12-2012 / abcdsd0324324.snappy.parquet data_folder / serial_number = 2 / cur_date = 27-12-2012 / asdsdfsd0324324.snappy.... -
2 votesanswersviews
如何从s3读取单个镶木地板文件到dask数据帧?
我正在尝试从s3读取一个带有snappy压缩的单个镶木地板文件到Dask Dataframe中 . 没有元数据目录,因为此文件是使用Spark 2.1编写的 它不适用于fastparquet本地 import dask.dataframe as dd dd.read_parquet('test.snappy.parquet', engine='fastparquet') 我得到以下例外: Not...