Java 学习之路

0 votes

answers

views

无法读取镶木地板文件，导致Gzip代码失败错误

我正在尝试将镶木地板转换为带有pyarrow的csv文件 . df = pd.read_parquet('test.parquet') 上面的代码适用于从github下载的样本镶木地板文件 . 但是，当我尝试使用实际的大型镶木地板文件时，它会出现以下错误 . File "_parquet.pyx", line 734, in pyarrow._parquet.ParquetR...

python-3.x pyspark parquet pyarrow fastparquet
11 votes

answers

views

如何在python中使用pyarrow从S3读取分区的镶木地板文件

我正在寻找使用python从s3读取多个分区目录数据的方法 . data_folder / serial_number = 1 / cur_date = 20-12-2012 / abcdsd0324324.snappy.parquet data_folder / serial_number = 2 / cur_date = 27-12-2012 / asdsdfsd0324324.snappy....

python parquet s3fs arrow-python fastparquet
2 votes

answers

views

如何从s3读取单个镶木地板文件到dask数据帧？

我正在尝试从s3读取一个带有snappy压缩的单个镶木地板文件到Dask Dataframe中 . 没有元数据目录，因为此文件是使用Spark 2.1编写的它不适用于fastparquet本地 import dask.dataframe as dd dd.read_parquet('test.snappy.parquet', engine='fastparquet') 我得到以下例外： Not...

python dask fastparquet

热门问题